21.04.2023

Nvidia выпустила ИИ для генерации видеороликов На основе Stable Diffusion

<i>Nvidia </i>выпустила ИИ для генерации видеороликов

Текст Александр Пономарёв

Компания Nvidia совместно с американскими учеными из Корнельского университета представила модель VideoLDM для превращения текстового описания в видео

Модель VideoLDM способна генерировать видеоролики разрешением до 2048 х 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунды на основе текста. Модель создана на базе Stable Diffusion и имеет до 4,1 миллиарда параметров, но только 2,7 миллиарда из них использовали видеоролики для тренировки. Благодаря эффективному подходу к модели скрытой диффузии (LDM) разработчики научили ИИ создавать довольно разнообразные видео высокого качества.

Исследователи отмечают такие особенности модели, как генерацию персонализированного видео и сверточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками, что позволяет персонализировать преобразование текста в видео.

VideoLDM также способна генерировать ролики сцен вождения — они имеют разрешение 1024 х 512 и продолжительность до пяти минут. Есть возможность моделирования конкретного сценария вождения с определенными условиями для создания интересующей обстановки. Модель может выполнять мультимодальное прогнозирование сценариев движения, генерируя несколько правдоподобных развертываний на основе одного начального кадра.

Здесь мы рассказываем про генеративно-состязательные нейросети: