04.03.2023

Microsoft научил нейросеть решать головоломки И анализировать изображения

<i>Microsoft </i>научил нейросеть решать головоломки

Текст Александр Пономарёв

Корпорация Microsoft представила мультимодальную нейросеть Kosmos-1, которая решает головоломки, успешно проходит визуальные тесты и распознает текст

В Microsoft считают, что мультимодальная нейросеть, которая объединяет различные режимы ввода, такие как изображения, текст, аудио и видео, станет ключевым шагом к созданию универсального искусственного интеллекта. Модель анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и проходит визуальный тест IQ.

Систему Kosmos-1 разработчики называют «мультимодальной моделью большого языка» (MLLM). Она принимает входящую информацию в виде серии токенов, а специальные маркеры указывают на начало и конец встраивания закодированного изображения.

Модуль внедрения применяется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем вложения подаются в декодер, а для входных токенов используется таблица поиска, чтобы сопоставить их с вложениями. После обучения исследователи оценили способности Kosmos-1.

Нейросеть понимает язык, генерирует текст, классифицирует его без оптического распознавания символов, генерирует подписи к изображениям, дает визуальные ответы на вопросы, ответы на вопросы веб-страниц и классифицирует изображения. По результатам многих из этих тестов модель превзошла современные аналоги.

Здесь мы рассказывали про нейросети для обработки изображений: