Разработана нейросеть для генерации видеороликов по тексту Но пользователям она пока недоступна
Нейросеть Imagen Video генерирует видеоролики разрешением 1280 х 768 пикселей с частотой 24 кадра в секунду на основе текста. Она способна работать в заданной стилистике, создавать вращающиеся 3D-объекты или отображать текст в различных анимационных жанрах. Основу технологии составляет ряд моделей, которые генерируют по текстовому описанию прототип видео — 16 кадров в разрешении 24 х 48 пикселей и с частотой 3 кадра в секунду.
Далее он пошагово преобразуется в ролик высокого разрешения и с увеличенной частотой кадров. Итоговое видео пока имеет длительность всего 5,3 секунды. Представленные Google изображения содержат некоторые артефакты, тем не менее, их детализация и плавность заметно выше, чем у существующих аналогов. Для генерации более длительных видеороликов представлена еще одна нейросеть от Google — Phenaki.
Система обучены на общедоступной базе LAION-400M, которая содержит 14 миллионов пар «видео-текст» и 60 миллионов пар «изображение-текст». Google отмечает, что есть вероятность генерации неприемлемого контента — сцен деликатного характера, насилия, социальных стереотипов и культурных предубеждений. Пока эти опасения не будут устранены, исходный код модели Imagen Video не будет публиковаться в открытом доступе.
Зато пользователям (кроме россиян) недавно стала доступна нейросеть DALL-E 2:
Использованные источники: