Александр Пономарёв

Текст

Компания Nvidia совместно с американскими учеными из Корнельского университета представила модель VideoLDM для превращения текстового описания в видео

Модель VideoLDM способна генерировать видеоролики разрешением до 2048 х 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунды на основе текста. Модель создана на базе Stable Diffusion и имеет до 4,1 миллиарда параметров, но только 2,7 миллиарда из них использовали видеоролики для тренировки. Благодаря эффективному подходу к модели скрытой диффузии (LDM) разработчики научили ИИ создавать довольно разнообразные видео высокого качества.

Исследователи отмечают такие особенности модели, как генерацию персонализированного видео и сверточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками, что позволяет персонализировать преобразование текста в видео.

VideoLDM также способна генерировать ролики сцен вождения — они имеют разрешение 1024 х 512 и продолжительность до пяти минут. Есть возможность моделирования конкретного сценария вождения с определенными условиями для создания интересующей обстановки. Модель может выполнять мультимодальное прогнозирование сценариев движения, генерируя несколько правдоподобных развертываний на основе одного начального кадра.

Здесь мы рассказываем про генеративно-состязательные нейросети:

Читать на ЦО.РФ

Верю не верю Как генеративно-состязательные нейросети (GAN) стали инструментом мошенников

Генеративно-состязательные нейросети (GAN) активно используют мошенники в своих манипуляциях для имитации чужой личности. Поэтому если кто-то из членов семьи неожиданно набрал вас по видеосвязи и срочно попросил помочь деньгами, не спешите открывать приложение банка. Перезвоните сами и проверьте: возможно, вы разговаривали с нейросетью-мошенником, которая ловко имитирует чужую личность

Использованные источники: Unsplash