3 17 4

charliezhang

Clockz

AI & ML interests

None yet

Recent Activity

upvoted a paper about 2 hours ago

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

upvoted a paper 4 days ago

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

upvoted a paper 4 days ago

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

View all activity

Organizations

upvoted a paper about 2 hours ago

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

Paper • 2603.02024 • Published about 19 hours ago • 34

upvoted 2 papers 4 days ago

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Paper • 2602.08354 • Published 22 days ago • 255

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

Paper • 2602.22766 • Published 5 days ago • 38

upvoted a paper 5 days ago

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

Paper • 2602.18283 • Published 11 days ago • 53

upvoted a paper 7 days ago

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

Paper • 2602.05400 • Published 26 days ago • 342

upvoted 3 papers about 1 month ago

Reinforcement Learning via Self-Distillation

Paper • 2601.20802 • Published Jan 28 • 40

ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

Paper • 2601.21420 • Published Jan 29 • 42

Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

Paper • 2601.15715 • Published Jan 22 • 14

upvoted a paper 2 months ago

Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

Paper • 2512.19673 • Published Dec 22, 2025 • 64

upvoted 3 papers 3 months ago

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

Paper • 2512.01374 • Published Dec 1, 2025 • 105

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

Paper • 2512.07783 • Published Dec 8, 2025 • 39

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

Paper • 2512.04324 • Published Dec 3, 2025 • 155

upvoted 2 papers 4 months ago

The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

Paper • 2510.25726 • Published Oct 29, 2025 • 46

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

Paper • 2510.23451 • Published Oct 27, 2025 • 28

upvoted a paper 6 months ago

MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

Paper • 2506.04141 • Published Jun 4, 2025 • 29

upvoted a paper 9 months ago

Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

Paper • 2506.04142 • Published Jun 4, 2025 • 27

upvoted an article 12 months ago

Article

DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge

Feb 7, 2025

•

276

charliezhang

AI & ML interests

Recent Activity

Organizations

Clockz's activity

DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge