Peter Tong's picture

Peter Tong PRO

tsbpp

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 12 days ago

Beyond Language Modeling: An Exploration of Multimodal Pretraining

submitted a paper 12 days ago

Beyond Language Modeling: An Exploration of Multimodal Pretraining

upvoted a paper about 2 months ago

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

View all activity

Organizations

upvoted a paper 12 days ago

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Paper • 2603.03276 • Published 13 days ago • 91

upvoted a paper about 2 months ago

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Paper • 2601.16208 • Published Jan 22 • 54

upvoted a paper 5 months ago

Diffusion Transformers with Representation Autoencoders

Paper • 2510.11690 • Published Oct 13, 2025 • 168

upvoted a collection 5 months ago

RAE

Collection for Diffusion Transformers with Representation Autoencoders • 7 items • Updated 22 days ago • 12

upvoted a paper 6 months ago

Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training

Paper • 2509.26625 • Published Sep 30, 2025 • 43

upvoted 2 papers 7 months ago

Deep Think with Confidence

Paper • 2508.15260 • Published Aug 21, 2025 • 90

Efficient Agents: Building Effective Agents While Reducing Cost

Paper • 2508.02694 • Published Jul 24, 2025 • 86

upvoted a collection 11 months ago

Web-SSL

17 items • Updated Apr 23, 2025 • 20

upvoted a paper 11 months ago

Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

Paper • 2504.15280 • Published Apr 21, 2025 • 25

upvoted a paper 12 months ago

Scaling Language-Free Visual Representation Learning

Paper • 2504.01017 • Published Apr 1, 2025 • 32

upvoted a paper about 1 year ago

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Paper • 2501.17161 • Published Jan 28, 2025 • 124

upvoted 3 papers over 1 year ago

MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

Paper • 2410.10139 • Published Oct 14, 2024 • 51

Law of Vision Representation in MLLMs

Paper • 2408.16357 • Published Aug 29, 2024 • 95

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Paper • 2406.16860 • Published Jun 24, 2024 • 63

upvoted 2 collections over 1 year ago

Cambrian Data

3 items • Updated Jun 25, 2024 • 12

Cambrian-1 Models

6 items • Updated 17 days ago • 21

upvoted 2 papers over 2 years ago

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

Paper • 2306.16527 • Published Jun 21, 2023 • 47

Emergence of Segmentation with Minimalistic White-Box Transformers

Paper • 2308.16271 • Published Aug 30, 2023 • 17