SkyReels‑V2 - новая SOTA среди open-source моделей для генерации видео

21 апреля 2025 г.Neurogen

SkyReels‑V2 - новая SOTA среди open-source моделей для генерации видео

SkyReels‑V2 — открытая система генерации видео произвольной длины по текстовым и визуальным подсказкам. Благодаря технологии Diffusion Forcing обеспечивает бесшовное продолжение кадров и создаёт «бесконечную» ленту.

Основные возможности

  • Text‑to‑Video (T2V): ролик по текстовому описанию

  • Image‑to‑Video (I2V): превращение одного изображения в анимацию

  • Prompt Enhancer: встроенный LLM для расширения и детализации подсказок

  • USP/xDiT: распределённый инференс между GPU для ускорения вывода

  • SkyCaptioner: автоматическая генерация субтитров и аннотаций

  • В планах: модуль «Camera Director» и выпуск версии с 5 B параметров

Конфигурации и аппаратные требования

Версия Кадров × разрешение Необходимая VRAM (1 GPU)

DF‑1.3 B 97 × 540 P ≈ 15 ГБ

DF‑14 B 97 × 540 P ≈ 51 ГБ

T2V‑14 B 121 × 540 / 720 P ≈ 43 ГБ

Ключевые технологии

Diffusion Model: «очистка» шума и восстановление деталей

Diffusion Forcing: фрагментарный шум и поэтапное восстановление для «бесшовности»

Reinforcement Learning: оценка плавности кадров и оптимизация поведения

Supervised Fine‑Tuning: доводка на высококачественных видеоматериалax

Производительность

  • Human Bench: 3.14/5 — лучший среди открытых решений, близко к коммерческим сервисам

  • V‑Bench: 83.9 % — наивысший показатель качества в open‑source

Все доступные варианты уже можно скачать на HuggingFaces

Протестировать онлайн можно на официальном сайте Skyreels

Ну что же, теперь ждем квантованные GGUF версии и поддержку в ComfyUI