🔥 VideoLLaMA 3: Frontier Multimodal Foundation Models for Video Understanding
🔥 VideoLLaMA 3: Frontier Multimodal Foundation Models for Video Understanding
VideoLLaMA - это серия мультимодальных моделей (MLLM), разработанных для различных задач понимания изображений и видео!
🌟 Модели поддерживают возможности обработки текста, изображений и видео.
Модели подойдут для создания универсальных приложений, способных решать широкий спектр задач, связанных с анализом визуальной информации.
🖐️Результаты 7B модели: DocVQA: 94,9, MathVision: 26,2, VideoMME: 66,2/70,3, MLVU: 73,0
🤏 Результаты 2B-модели для мобильных устройств: MMMU: 45.3, VideoMME: 59.6/63.4
🔐 Лицензирование: Apache-2.0
▪ Github: https://github.com/DAMO-NLP-SG/VideoLLaMA3
▪Image Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
▪Video Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3
@ai_machinelearning_big_data
#video #MLLM #opensource #VideoLLaMA #VideoUnderstanding