«Сбер» разработал крупнейшую модель генерации изображений Она создает картинки по текстовому описанию

Как сообщает пресс-служба «Сбера», модель Kandinsky представляет собой улучшенную версию мультимодальной нейросети ruDALL-E, которая генерирует изображения по описанию на русском языке. Использовать ее можно для создания любых видов изображений — иллюстраций, материалов для рекламы, архитектурного и промышленного дизайна, а также для иллюстраций из разряда цифрового искусства.
В ноябре прошлого года была представлена модель ruDALL-E XL, содержащая 1,3 миллиарда параметров. Команды Sber AI и SberDevices смогли существенно улучшить качество работы этой модели, дообучив ее на 179 миллионах изображений, снабженных текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo.
Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также может использовать новый способ повышения разрешения сгенерированных картинок на основе диффузионного процесса для изображений с соотношением сторон 1:1 (помимо стандартного подхода с использованием Real-ESRGAN).
Теперь модель значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения. Создание изображений при помощи модели Kandinsky происходит в три этапа — нейросеть генерирует заданное число изображений, выбирает наиболее удачные и увеличивает их разрешение.
Нейросеть недавно написала песню про Санкт-Петербург:
Использованные источники:
