Нейросеть Kandinsky научилась создавать видеоролики По текстовому описанию
По текстовому описанию генерируется видеоролик c выбранным эффектом анимации частотой 24 кадра в секунду и разрешением 640х640 пикселей. Генерация одной секунды в среднем занимает около 20 секунд. Функция пока работает в тестовом режиме и доступна самым активным пользователям Kandinsky 2.2 — они получат приглашение в ближайшее время, а до конца года оценить новую возможность смогут и все остальные.
Чтобы сгенерировать анимационный видеоролик, нужно описать текстом непосредственно то, что хочется увидеть. Затем бот предложит на выбор 16 вариантов анимации сцены, после чего нейросеть сгенерирует видео. Также доступна генерация составных сцен — пользователь может ввести до трех текстовых описаний, затем выбрать для каждого свою механику анимации, после чего модель создаст «мини-фильм».
Основой для синтеза видео является модель генерации изображений по текстовым описаниям Kandinsky 2.2. Для расширения ее возможностей реализованы разные виды анимации изображений, что позволило перемещать, приближать и отдалять объекты, оживлять статику всеми возможными способами. В основе режимов анимации лежат функции image2image и inpainting/outpainting.
Здесь мы рассказываем, как нейросети обрабатывают изображения:
Использованные источники: Unsplash