15.06.2022

«Сбер» разработал крупнейшую модель генерации изображений Она создает картинки по текстовому описанию

Текст Александр Пономарёв

«Cбер» представил самую большую на данный момент модель генерации изображений по текстовому описанию на русском языке — она получила название Kandinsky

Как сообщает пресс-служба «Сбера», модель Kandinsky представляет собой улучшенную версию мультимодальной нейросети ruDALL-E, которая генерирует изображения по описанию на русском языке. Использовать ее можно для создания любых видов изображений — иллюстраций, материалов для рекламы, архитектурного и промышленного дизайна, а также для иллюстраций из разряда цифрового искусства.

В ноябре прошлого года была представлена модель ruDALL-E XL, содержащая 1,3 миллиарда параметров. Команды Sber AI и SberDevices смогли существенно улучшить качество работы этой модели, дообучив ее на 179 миллионах изображений, снабженных текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo.

Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также может использовать новый способ повышения разрешения сгенерированных картинок на основе диффузионного процесса для изображений с соотношением сторон 1:1 (помимо стандартного подхода с использованием Real-ESRGAN).

Теперь модель значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения. Создание изображений при помощи модели Kandinsky происходит в три этапа — нейросеть генерирует заданное число изображений, выбирает наиболее удачные и увеличивает их разрешение.

Нейросеть недавно написала песню про Санкт-Петербург: