Machine Intelligence Lab @University of Cambridge

university

https://mi.eng.cam.ac.uk/Main/Speech/WebHome

Activity Feed Request to join this org

AI & ML interests

Speech, NLP

Changli

authored 3 papers 3 months ago

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

Paper • 2310.05863 • Published Oct 9, 2023 • 2

Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization

Paper • 2410.06682 • Published Oct 9, 2024

video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models

Paper • 2506.15220 • Published Jun 18 • 1

Changli

authored a paper 8 months ago

video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

Paper • 2502.11775 • Published Feb 17 • 9

patrickvonplaten

authored a paper about 1 year ago

Pixtral 12B

Paper • 2410.07073 • Published Oct 9, 2024 • 67

Changli

authored a paper over 1 year ago

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

Paper • 2406.15704 • Published Jun 22, 2024 • 6

patrickvonplaten

authored 5 papers almost 2 years ago

aMUSEd: An Open MUSE Reproduction

Paper • 2401.01808 • Published Jan 3, 2024 • 31

ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition

Paper • 2210.13352 • Published Oct 24, 2022 • 3

Multi-Span Acoustic Modelling using Raw Waveform Signals

Paper • 1906.11047 • Published Jun 21, 2019 • 1

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

Paper • 2311.05556 • Published Nov 9, 2023 • 87

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

Paper • 2311.00430 • Published Nov 1, 2023 • 58

cz277

authored a paper almost 2 years ago

SALMONN: Towards Generic Hearing Abilities for Large Language Models

Paper • 2310.13289 • Published Oct 20, 2023 • 17

Changli

authored a paper almost 2 years ago

SALMONN: Towards Generic Hearing Abilities for Large Language Models

Paper • 2310.13289 • Published Oct 20, 2023 • 17

patrickvonplaten

authored a paper over 2 years ago

XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale

Paper • 2111.09296 • Published Nov 17, 2021 • 3