Павел Иевлев

Текст

Sber открыл для бесплатного тестирования новую версию своей генеративной нейросети Kandinsky

Новая генеративная модель Kandinsky 2.1, разработанная Sber AI при поддержке ученых из AIRI, может создавать высококачественные изображения всего за несколько секунд по текстовому описанию на естественном языке. Эта модель способна смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна.

Кандинский 2.1 понимает запросы на 101 языке и умеет рисовать в различных стилях, а ее создание было возможно благодаря обучению на 1 млрд пар «текст - изображение» и 170 млн пар «текст - изображение» высокого разрешения, а также на датасете из 2 млн пар качественных изображений.

Модель была усовершенствована с помощью новой обученной модели автоэнкодера, которая использовалась в качестве декодера векторных представлений изображений. Благодаря этому Kandinsky 2.1 содержит 3,3 млрд параметров, что улучшило генерацию изображений в высоком разрешении, таких как лица и сложные объекты.

Нейросеть также использует специальное представление изображения моделью CLIP, что дает возможность формировать представление картинки на основе текстовой информации и подавать его на вход основной генеративной модели.

Время ожидания пока очень велико, а результат сильно уступает Midjourney (можно сравнить примерно с V3), зато бесплатно.

Что такое Midjourney:

Читать на ЦО.РФ

Большой тест-драйв ИИ-художников Иллюстрируем киберпанк-роман с помощью нейросетей

Нейросети давно помогают водить машины, распознавать лица и диагностировать рак. Отправят ли они на пенсию иллюстраторов? Художественный тест-драйв «Цифрового океана»

Использованные источники: