10.10.2022

Разработана нейросеть для генерации видеороликов по тексту Но пользователям она пока недоступна

Текст Александр Пономарёв

Корпорация Google представила систему искусственного интеллекта Imagen Video, которая создает видео высокого разрешения по текстовому описанию

Нейросеть Imagen Video генерирует видеоролики разрешением 1280 х 768 пикселей с частотой 24 кадра в секунду на основе текста. Она способна работать в заданной стилистике, создавать вращающиеся 3D-объекты или отображать текст в различных анимационных жанрах. Основу технологии составляет ряд моделей, которые генерируют по текстовому описанию прототип видео — 16 кадров в разрешении 24 х 48 пикселей и с частотой 3 кадра в секунду.

Далее он пошагово преобразуется в ролик высокого разрешения и с увеличенной частотой кадров. Итоговое видео пока имеет длительность всего 5,3 секунды. Представленные Google изображения содержат некоторые артефакты, тем не менее, их детализация и плавность заметно выше, чем у существующих аналогов. Для генерации более длительных видеороликов представлена еще одна нейросеть от Google — Phenaki.

Система обучены на общедоступной базе LAION-400M, которая содержит 14 миллионов пар «видео-текст» и 60 миллионов пар «изображение-текст». Google отмечает, что есть вероятность генерации неприемлемого контента — сцен деликатного характера, насилия, социальных стереотипов и культурных предубеждений. Пока эти опасения не будут устранены, исходный код модели Imagen Video не будет публиковаться в открытом доступе.

Зато пользователям (кроме россиян) недавно стала доступна нейросеть DALL-E 2: