Павел Иевлев

Текст

SberAI работает над созданием мультимодальной нейросети

Заявляется, что нейросеть от Сбера сможет решать 20 задач одновременно – пока никто в мире еще не заявлял таких амбициозных планов. Для этого необходимы огромные вычислительные мощности и датасет, который в Сбере размечали и собирали на протяжении долгого времени.

Полигоном для испытаний мультимодальности станет нейросеть ruDALL-E, которая в оригинальном варианте умеет генерировать изображения по текстовому описанию на русском языке. Ее можно свободно попробовать в работе, например, попросив нарисовать «синюю лягушку с пушистым хвостом».

Выглядит как забава, но на самом деле это очень нетривиальная и сложная задача для ИИ – распознать в текстовом описании образ чего-то несуществующего и визуализировать его. Это и для человека иногда сложно – хотя человек справляется с множеством модальностей одновременно.

Многозадачность для ИИ не будет означать, что он нарисует больше синих лягушек. У мультимодальной нейросети может быть очень много применений, например, медицинская диагностика. Она должна учитывать множество различных показателей, от МРТ до анализа крови.

Использованные источники: