Александр Пономарёв

Текст

Нейросеть «Сбера» Kandinsky 2.2 теперь умеет генерировать четырехсекундные видеоролики по текстовому описанию в режиме анимации

По текстовому описанию генерируется видеоролик c выбранным эффектом анимации частотой 24 кадра в секунду и разрешением 640х640 пикселей. Генерация одной секунды в среднем занимает около 20 секунд. Функция пока работает в тестовом режиме и доступна самым активным пользователям Kandinsky 2.2 — они получат приглашение в ближайшее время, а до конца года оценить новую возможность смогут и все остальные.

Чтобы сгенерировать анимационный видеоролик, нужно описать текстом непосредственно то, что хочется увидеть. Затем бот предложит на выбор 16 вариантов анимации сцены, после чего нейросеть сгенерирует видео. Также доступна генерация составных сцен — пользователь может ввести до трех текстовых описаний, затем выбрать для каждого свою механику анимации, после чего модель создаст «мини-фильм».

Основой для синтеза видео является модель генерации изображений по текстовым описаниям Kandinsky 2.2. Для расширения ее возможностей реализованы разные виды анимации изображений, что позволило перемещать, приближать и отдалять объекты, оживлять статику всеми возможными способами. В основе режимов анимации лежат функции image2image и inpainting/outpainting.

Здесь мы рассказываем, как нейросети обрабатывают изображения:

Читать на ЦО.РФ

Как улучшить фотографии нейросетью? Основные методы ИИ-обработки изображений

Улучшение качества фотографий с помощью нейронных сетей подразумевает обучение сети для изучения моделей и характеристик высококачественных изображений, а затем использование этой сети для создания или улучшения новых изображений.

Использованные источники: Unsplash