Lingdong Kong's picture

2 29 4

Lingdong Kong

ldkong

·

https://ldkong.com

AI & ML interests

3D Perception, Domain Adaptation, Semi-Supervised Learning, Self-Supervised Learning

Recent Activity

authored a paper 7 days ago

3EED: Ground Everything Everywhere in 3D

upvoted a paper 7 days ago

3EED: Ground Everything Everywhere in 3D

upvoted a paper 14 days ago

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

View all activity

Organizations

upvoted a paper 7 days ago

3EED: Ground Everything Everywhere in 3D

Paper • 2511.01755 • Published 8 days ago • 10

upvoted a paper 14 days ago

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

Paper • 2510.23607 • Published 15 days ago • 172

upvoted 2 papers 18 days ago

VideoLucy: Deep Memory Backtracking for Long Video Understanding

Paper • 2510.12422 • Published 28 days ago • 1

Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

Paper • 2510.20579 • Published 19 days ago • 54

upvoted a paper about 1 month ago

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Paper • 2510.02240 • Published Oct 2 • 17

upvoted 12 papers 2 months ago

UniSeg: A Unified Multi-Modal LiDAR Segmentation Network and the OpenPCSeg Codebase

Paper • 2309.05573 • Published Sep 11, 2023 • 2

The RoboDepth Challenge: Methods and Advancements Towards Robust Depth Estimation

Paper • 2307.15061 • Published Jul 27, 2023 • 1

4D Contrastive Superflows are Dense 3D Representation Learners

Paper • 2407.06190 • Published Jul 8, 2024 • 1

Unsupervised Video Domain Adaptation for Action Recognition: A Disentanglement Perspective

Paper • 2208.07365 • Published Aug 15, 2022 • 1

LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving

Paper • 2501.04005 • Published Jan 7 • 1

FRNet: Frustum-Range Networks for Scalable LiDAR Segmentation

Paper • 2312.04484 • Published Dec 7, 2023 • 1

Zero-Shot 3D Visual Grounding from Vision-Language Models

Paper • 2505.22429 • Published May 28 • 1

Talk2Event: Grounded Understanding of Dynamic Scenes from Event Cameras

Paper • 2507.17664 • Published Jul 23 • 1

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

Paper • 2505.23727 • Published May 29 • 5

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

Paper • 2506.03144 • Published Jun 3 • 7

3D and 4D World Modeling: A Survey

Paper • 2509.07996 • Published Sep 4 • 57

Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps

Paper • 2505.18675 • Published May 24 • 25

upvoted a paper 8 months ago

Token-Efficient Long Video Understanding for Multimodal LLMs

Paper • 2503.04130 • Published Mar 6 • 96

upvoted 2 papers 10 months ago

OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies

Paper • 2501.00326 • Published Dec 31, 2024 • 1

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

Paper • 2501.04003 • Published Jan 7 • 27