LongVILA: Scaling Long-Context Visual Language Models for Long Videos
Paper
•
2408.10188
•
Published
•
51
Note Написали про свой картиночный энкодер, ропе2д, плюс какой-то свой бенч принесли и смотрели на то, как скоры на бенчах реагирует на разные промты
Note МоЕ моделька, 4 стадии претрейна: текст онли, мультимодальный: интерлив 190B, синтетические пары 70B, документы и qa 102B, Video и qa 34B, Multimodal Long-Context Pre-training
Note Микро статья, базовая влмка, использовали качественный датасет для претерейна 1.2М пар, который размечали ассесорами,