2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
Paper
•
2501.00958
•
Published
•
89
Note VLM訓練用に2.5年間にわたる教育ビデオから構築された高品質なマルチモーダル教科書コーパスを作成。 上記を学習することで知識を必要とするタスクや推論を必要とするタスクで顕著な改善。特にfew-shot learningで精度向上。
Note Program-driven Self-Correction (プログラム駆動型自己修正手法)(ProgCo)を提案。 ProgCoは以下二つの方法で自己修正 - ProgVe: 入力に対して、LLMで検証用の擬似プログラムを生成しテスト - ProgRe: ProgVeから得られたフィードバックをもとに、LLMが自分の出力と検証プログラムの両方を見直し、修正
Note Vision, Languageに加え、Speechを統合したマルチモーダル大規模言語モデル 従来のASRやTTSモジュールに依存せず、E2Eの音声出力を実現 https://github.com/VITA-MLLM/VITA
Note ステップレベルのインコンテキスト学習を提案 従来のICLは問題全体に対する例を事前に提示していたが、BoostStepは推論過程で関連性の高い例をリアルタイムで与えて、推論に役立てる。 図はFigure 2, https://arxiv.org/pdf/2501.03226
Note VLMのための動画ベンチマークセット、既存のVLMは細かい動作について理解度60%未満だった
Note Vision Tokenを大幅に圧縮し、計算効率を向上させた大規模マルチモーダルモデル
Note 世界モデルを構築できるプラットフォーム(物理的な現象を模倣する高品質な動画生成可能)