Precision-RL - a sail Collection

sail 's Collections

🚀 Active PRM

🌾Oat-Zero: Understanding R1-Zero-Like Training

🔱 Sailor2 Language Models

🧬 RegMix: Data Mixture as Regression

📈 Scaling Laws with Vocabulary

⚓️ Sailor Language Models

Precision-RL

updated 19 days ago

Defeating the Training-Inference Mismatch via FP16

Defeating the Training-Inference Mismatch via FP16

Paper • 2510.26788 • Published Oct 30 • 29
sail/Sanity-Test-R1D-1.5B

Viewer • Updated 18 days ago • 1.52k • 96 • 6