Павел Иевлев

Текст

Новая нейросеть ruDALL-E стала популярным развлечением в соцсетях. Она генерирует изображения по короткому текстовому описанию. Иногда получается забавно

Сама по себе идея алгоритма, создающего картинки из слов, не нова.

Мы уже писали о фреймворке CLIP от OpenAI:

Читать на ЦО.РФ

Создана новая нейросеть для классификации изображения Она умеет как находить картинки по описанию, так и генерировать собственные

Нейросеть CLIP от OpenAI демонстрирует новый «интеллектуальный» подход к работе с изображениями. Ее принцип работы далеко ушел от привычного для таких задач deep learning

ruDALL-E является первым таким проектом в Рунете (и форком английской DALL-E). Text-to-image модель, генерирующая изображения по русскоязычному (в отличие от прототипа) тексту. Несмотря на то, что большая часть ее использования – развлечение (сгенерировать картинку и выложить ее в Instagram с комментарием «смотрите, чего вышло!»), внутри скрыты довольно серьезные алгоритмические решения. По утверждению создателей, нейросеть может «авторегрессивно моделировать токены текста и изображения как единый поток данных».

На выходе, правда, обычно некий расплывчатый ужас. Или не ужас – но все равно расплывчатый. Вот так, например, ruDALL-E видит название «Цифровой океан»:

Использованные источники: