Nvidia выпустила ИИ для генерации видеороликов На основе Stable Diffusion
Модель VideoLDM способна генерировать видеоролики разрешением до 2048 х 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунды на основе текста. Модель создана на базе Stable Diffusion и имеет до 4,1 миллиарда параметров, но только 2,7 миллиарда из них использовали видеоролики для тренировки. Благодаря эффективному подходу к модели скрытой диффузии (LDM) разработчики научили ИИ создавать довольно разнообразные видео высокого качества.
Исследователи отмечают такие особенности модели, как генерацию персонализированного видео и сверточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками, что позволяет персонализировать преобразование текста в видео.
VideoLDM также способна генерировать ролики сцен вождения — они имеют разрешение 1024 х 512 и продолжительность до пяти минут. Есть возможность моделирования конкретного сценария вождения с определенными условиями для создания интересующей обстановки. Модель может выполнять мультимодальное прогнозирование сценариев движения, генерируя несколько правдоподобных развертываний на основе одного начального кадра.
Здесь мы рассказываем про генеративно-состязательные нейросети:
Использованные источники: Unsplash