Tencent

Verified

AI & ML interests

None defined yet.

Recent Activity

MarcusGu submitted a paper 1 day ago

WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models

Yinsongliu new activity 7 days ago

tencent/Youtu-VL-4B-Instruct-GGUF:Ollama error "key not found in model: deepseek2.expert_weights_scale"

hhoh new activity 7 days ago

tencent/Hy-MT1.5-1.8B-1.25bit-GGUF:Update the stride-16 version for the 1.25bit gguf model to support the interleaved STQ1_0 kernel

View all activity

Papers

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning

View all Papers

tencent 's papers 82

Submitted by

Yan Wang

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

tencent

Submitted by

Yucheng Zhou

World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning

tencent

Submitted by

Yansong NING

HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs

tencent

Submitted by

Dingwei Chen

Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement

tencent

Submitted by

HansonDong

Toward Native Multimodal Modeling: A Roadmap

tencent

Submitted by

Fury James

WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models

tencent

2

Submitted by

Eddie

EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

tencent

3

Submitted by

Dingwei Chen

A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

tencent

Submitted by

Yuqing Li

MiA-Signature: Approximating Global Activation for Long-Context Understanding

tencent

Submitted by

Qihang Fan

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

tencent

Submitted by

Ningyu Zhang

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

tencent

Submitted by

Wei Tao

PlayCoder: Making LLM-Generated GUI Code Playable

tencent

Submitted by

Gaojunyao

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

tencent

Submitted by

taesiri

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

tencent

Submitted by

taesiri

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

tencent

Submitted by

whj363636

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

tencent

Submitted by

Eddie

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

tencent

Submitted by

HansonDong

Deep Tabular Research via Continual Experience-Driven Execution

tencent

2

Submitted by

taesiri

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

tencent

Submitted by

Tengfei Wang

WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

tencent

Submitted by

Yuqing Li

Query-focused and Memory-aware Reranker for Long Context Processing

tencent

5

Submitted by

Yan Wang

The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

tencent

Submitted by

taesiri

Covo-Audio Technical Report

tencent

Submitted by

Yan Wang

Free(): Learning to Forget in Malloc-Only Reasoning Models

tencent

Submitted by

jankin

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

tencent

Submitted by

Sidi Lu

Locas: Your Models are Principled Initializers of Locally-Supported Parametric Memories

tencent

Submitted by

Changze Lv

Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

tencent

3

Submitted by

Shihan Dou

CL-bench: A Benchmark for Context Learning

tencent

Submitted by

DI YIN

ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution

tencent

3

Submitted by

Liyan Xu

No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs

tencent

Submitted by

Yu Xu

Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

tencent

2

Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding

tencent

Submitted by

Daniel Bourke

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

tencent

Submitted by

Kishan Panaganti

Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning

tencent

2

Submitted by

Tianqing Fang

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

tencent

Submitted by

taesiri

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

tencent

Submitted by

zongzefang

AT^2PO: Agentic Turn-based Policy Optimization via Tree Search

tencent

Submitted by

Niels Rogge

TCAndon-Router: Adaptive Reasoning Router for Multi-Agent Collaboration

tencent

Submitted by

taesiri

Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

tencent

Submitted by

Ke Li

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

tencent

Submitted by

Mo

Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling

tencent

Submitted by

Xu Lin

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

tencent

Submitted by

Yulei Qin

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

tencent

Submitted by

Mo

Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

tencent

3

Submitted by

Zhiyang Guo

Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation

tencent

Submitted by

Lei Ke

N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

tencent

Submitted by

Yujun Zhou

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

tencent

Submitted by

cientgu

Distribution Matching Variational AutoEncoder

tencent

Submitted by

zichuan lin

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

tencent

Submitted by

zichuan lin

SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization

tencent

Submitted by

Chengsong Huang

Guided Self-Evolving LLMs with Minimal Human Supervision

tencent

2

Submitted by

Guanjie Chen

Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning

tencent

Submitted by

Kai Yang

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

tencent

Submitted by

liu

MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

tencent

Submitted by

Chenchen Zhang

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

tencent

Submitted by

Zihao Yi

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

tencent

Submitted by

Ke Li

LTD-Bench: Evaluating Large Language Models by Letting Them Draw

tencent

Submitted by

Chenze Shao

Continuous Autoregressive Language Models

tencent

Submitted by

Tian Lan

The End of Manual Decoding: Towards Truly End-to-End Language Models

tencent

Submitted by

Dian Yu

Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values

tencent

Submitted by

Liyang He

ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks

tencent

Submitted by

Chenchen Zhang

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

tencent

Submitted by

Wenhao Yu

Don't Throw Away Your Pretrained Model

tencent

Submitted by

taesiri

Training-Free Group Relative Policy Optimization

tencent

Submitted by

Hao Wu

GCPO: When Contrast Fails, Go Gold

tencent

Submitted by

Guanhua Huang

Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward

tencent

Submitted by

Zhenwen Liang

CLUE: Non-parametric Verification from Experience via Hidden-State Clustering

tencent

Submitted by

Rui Liu

VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning

tencent

2

Submitted by

Zhaopeng Tu

BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs

tencent

2

Submitted by

xuxin

Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners

tencent

Submitted by

Zhongwen Xu

Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning

tencent

2

Submitted by

taesiri

HunyuanImage 3.0 Technical Report

tencent

Submitted by

taesiri

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

tencent

Submitted by

Zhongwen Xu

Single-stream Policy Optimization

tencent

Submitted by

Xinyu Yang

Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

tencent

Submitted by

Yuan Liu

POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

tencent

Youtu-GraphRAG: Vertically Unified Agents for Graph Retrieval-Augmented Complex Reasoning

tencent

Submitted by

Wenhao Yu

Self-Rewarding Vision-Language Model via Reasoning Decomposition

tencent

Submitted by

Zhongwen Xu

Understanding Tool-Integrated Reasoning

tencent

4

Submitted by

Chengsong Huang

R-Zero: Self-Evolving Reasoning LLM from Zero Data

tencent

Submitted by

Yulei Qin

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

tencent

Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization

tencent