Нейросеть стала русским Дали Алгоритм рисует картинки по описаниям

Сама по себе идея алгоритма, создающего картинки из слов, не нова.
Мы уже писали о фреймворке CLIP от OpenAI:
ruDALL-E является первым таким проектом в Рунете (и форком английской DALL-E). Text-to-image модель, генерирующая изображения по русскоязычному (в отличие от прототипа) тексту. Несмотря на то, что большая часть ее использования – развлечение (сгенерировать картинку и выложить ее в Instagram с комментарием «смотрите, чего вышло!»), внутри скрыты довольно серьезные алгоритмические решения. По утверждению создателей, нейросеть может «авторегрессивно моделировать токены текста и изображения как единый поток данных».
На выходе, правда, обычно некий расплывчатый ужас. Или не ужас – но все равно расплывчатый. Вот так, например, ruDALL-E видит название «Цифровой океан»:

Использованные источники:
