Александр Пономарёв

Текст

«Cбер» представил самую большую на данный момент модель генерации изображений по текстовому описанию на русском языке — она получила название Kandinsky

Как сообщает пресс-служба «Сбера», модель Kandinsky представляет собой улучшенную версию мультимодальной нейросети ruDALL-E, которая генерирует изображения по описанию на русском языке. Использовать ее можно для создания любых видов изображений — иллюстраций, материалов для рекламы, архитектурного и промышленного дизайна, а также для иллюстраций из разряда цифрового искусства.

В ноябре прошлого года была представлена модель ruDALL-E XL, содержащая 1,3 миллиарда параметров. Команды Sber AI и SberDevices смогли существенно улучшить качество работы этой модели, дообучив ее на 179 миллионах изображений, снабженных текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo.

Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также может использовать новый способ повышения разрешения сгенерированных картинок на основе диффузионного процесса для изображений с соотношением сторон 1:1 (помимо стандартного подхода с использованием Real-ESRGAN).

Теперь модель значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения. Создание изображений при помощи модели Kandinsky происходит в три этапа — нейросеть генерирует заданное число изображений, выбирает наиболее удачные и увеличивает их разрешение.

Нейросеть недавно написала песню про Санкт-Петербург:

Использованные источники: