wang's picture

28

wang

wangxbx

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 11 days ago

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

upvoted a paper 11 days ago

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

upvoted a paper 11 days ago

Kimi k1.5: Scaling Reinforcement Learning with LLMs

View all activity

Organizations

None yet

wangxbx's activity

upvoted 6 papers 11 days ago

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Paper • 2501.12570 • Published 13 days ago • 23

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Paper • 2501.12895 • Published 13 days ago • 55

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper • 2501.12599 • Published 13 days ago • 84

Autonomy-of-Experts Models

Paper • 2501.13074 • Published 13 days ago • 40

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Paper • 2501.13106 • Published 13 days ago • 78

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published 13 days ago • 287

upvoted 2 papers 13 days ago

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

Paper • 2501.11425 • Published 15 days ago • 89

Reasoning Language Models: A Blueprint

Paper • 2501.11223 • Published 15 days ago • 31

upvoted 5 papers 15 days ago

Towards Best Practices for Open Datasets for LLM Training

Paper • 2501.08365 • Published 21 days ago • 53

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Paper • 2501.09686 • Published 19 days ago • 36

Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

Paper • 2501.09732 • Published 19 days ago • 67

PaSa: An LLM Agent for Comprehensive Academic Paper Search

Paper • 2501.10120 • Published 18 days ago • 42

Evolving Deeper LLM Thinking

Paper • 2501.09891 • Published 18 days ago • 104

upvoted a paper 18 days ago

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

Paper • 2501.08828 • Published 20 days ago • 30

upvoted 3 papers 19 days ago

O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning

Paper • 2501.06458 • Published 24 days ago • 29

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Paper • 2501.06186 • Published 25 days ago • 60

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published 21 days ago • 272

upvoted 3 papers 25 days ago

Multi-task retriever fine-tuning for domain-specific and efficient RAG

Paper • 2501.04652 • Published 27 days ago • 10

Search-o1: Agentic Search-Enhanced Large Reasoning Models

Paper • 2501.05366 • Published 26 days ago • 87

Agent Laboratory: Using LLM Agents as Research Assistants

Paper • 2501.04227 • Published 27 days ago • 84