«Сбер» выпустил Kandinsky версии 3.0 Теперь модель лучше понимает текстовые запросы
Как сообщает пресс-служба «Сбера», модель работает с запросами из широкого списка тем и лучше предыдущих версий знает элементы отечественного культурного кода. Например, значительно улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России.
Кроме того, у Kandinsky 3.0 усовершенствована функция редактирования изображений и возможность их дорисовки в режиме бесконечного полотна — inpainting и outpainting. Нейросеть создает изображения с разрешением 1024х1024 пикселей, но может синтезировать картинки с выбранным соотношением сторон. Для обучения использован обновленный датасет из 1,5 миллиардов пар «текст-изображение», содержащий данные после многоэтапных процедур фильтрации.
Kandinsky 3.0 также умеет создавать видеоролики по текстовому описанию в режиме анимации — по запросу генерируется видео длиной четыре секунды c выбранным эффектом анимации, частотой 24 кадра в секунду и разрешением 640х640 пикселей. В основе режимов анимации лежит функция перерисовки изображения по текстовому описанию — image2image. Модель понимает запросы более чем на 100 языках, а пользователи могут создавать изображения в неограниченном количестве стилей.
Здесь мы тестируем нейросети для создания изображений:
Использованные источники: «Сбер»