Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.08905

Papers - Pretraining - Synthetic Data - Reasoning

Phi-4 Technical Report

Paper • 2412.08905 • Published 6 days ago • 82

Papers - Fine-tuning - DPO - Pivotal Token Search

Phi-4 Technical Report

Paper • 2412.08905 • Published 6 days ago • 82

Phi-4 Technical Report

Paper • 2412.08905 • Published 6 days ago • 82

Phi-4 Technical Report

Paper • 2412.08905 • Published 6 days ago • 82
Evaluating and Aligning CodeLLMs on Human Preference

Paper • 2412.05210 • Published 12 days ago • 47
Evaluating Language Models as Synthetic Data Generators

Paper • 2412.03679 • Published 14 days ago • 43
Yi-Lightning Technical Report

Paper • 2412.01253 • Published 16 days ago • 22

Large group of models

Phi-4 Technical Report

Paper • 2412.08905 • Published 6 days ago • 82
cognitivecomputations/dolphin-2.9.2-qwen2-72b

Text Generation • Updated Oct 8 • 11.8k • 128
ByteWave/prompt-generator

Text Generation • Updated Nov 10, 2023 • 327 • 18
Qwen/QwQ-32B-Preview

Text Generation • Updated 19 days ago • 112k • • 1.33k

Phi-4 Technical Report

Paper • 2412.08905 • Published 6 days ago • 82

Phi-4 Technical Report

Paper • 2412.08905 • Published 6 days ago • 82

Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering

Paper • 2411.11504 • Published 30 days ago • 19
Top-nσ: Not All Logits Are You Need

Paper • 2411.07641 • Published Nov 12 • 18
Adaptive Decoding via Latent Preference Optimization

Paper • 2411.09661 • Published Nov 14 • 10
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

Paper • 2411.13476 • Published 28 days ago • 14

about 10 hours ago

Differential Transformer

Paper • 2410.05258 • Published Oct 7 • 167
PaliGemma 2: A Family of Versatile VLMs for Transfer

Paper • 2412.03555 • Published 14 days ago • 116
VisionZip: Longer is Better but Not Necessary in Vision Language Models

Paper • 2412.04467 • Published 13 days ago • 103
o1-Coder: an o1 Replication for Coding

Paper • 2412.00154 • Published 19 days ago • 39

Scaling Laws for Neural Language Models

Paper • 2001.08361 • Published Jan 23, 2020 • 6
Scaling Laws for Autoregressive Generative Modeling

Paper • 2010.14701 • Published Oct 28, 2020
Training Compute-Optimal Large Language Models

Paper • 2203.15556 • Published Mar 29, 2022 • 10
A Survey on Data Selection for Language Models

Paper • 2402.16827 • Published Feb 26 • 4

Previous
1
2
3
4
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs