Александр Пономарёв

Текст

Корпорация Google представила систему искусственного интеллекта Imagen Video, которая создает видео высокого разрешения по текстовому описанию

Нейросеть Imagen Video генерирует видеоролики разрешением 1280 х 768 пикселей с частотой 24 кадра в секунду на основе текста. Она способна работать в заданной стилистике, создавать вращающиеся 3D-объекты или отображать текст в различных анимационных жанрах. Основу технологии составляет ряд моделей, которые генерируют по текстовому описанию прототип видео — 16 кадров в разрешении 24 х 48 пикселей и с частотой 3 кадра в секунду.

Далее он пошагово преобразуется в ролик высокого разрешения и с увеличенной частотой кадров. Итоговое видео пока имеет длительность всего 5,3 секунды. Представленные Google изображения содержат некоторые артефакты, тем не менее, их детализация и плавность заметно выше, чем у существующих аналогов. Для генерации более длительных видеороликов представлена еще одна нейросеть от Google Phenaki.

Система обучены на общедоступной базе LAION-400M, которая содержит 14 миллионов пар «видео-текст» и 60 миллионов пар «изображение-текст». Google отмечает, что есть вероятность генерации неприемлемого контента — сцен деликатного характера, насилия, социальных стереотипов и культурных предубеждений. Пока эти опасения не будут устранены, исходный код модели Imagen Video не будет публиковаться в открытом доступе.

Зато пользователям (кроме россиян) недавно стала доступна нейросеть DALL-E 2:

Использованные источники: