🌟 Pusa-VidGen — новый подход к генерации видео с точным управлением движением

🌟 Pusa-VidGen — новый подход к генерации видео с точным управлением движением

Обычно в генерации видео модели обрабатывают весь ролик "размазанным" шумом — как бы в целом.

А тут модель управляет шумом отдельно для каждого кадра, и делает это с помощью векторизованных "timesteps" (временных шагов) — более гибко, точно и эффективно.

Новая модель генерации видео на базе Mochi1-Preview и поддерживает:

🔹 Text-to-Video

🔹 Image-to-Video

🔹 Frame Interpolation

🔹 Video Transitions

🔹 Looping, удлинение видео и многое другое

⚡ Эффективность:

▪ 16× H800 GPU

▪ 0.1k GPU-часов

▪ Обучение: 500 итераций, batch size 32

▪ По заявления разработчиков - стоимость обучения всего 100$ 🤯

Github

Paper

Dataset

Model

#diffusion #videogen #pusa #opensource #AI #text2video #mochi1 #fvdm