Microsoft научил нейросеть решать головоломки И анализировать изображения

В Microsoft считают, что мультимодальная нейросеть, которая объединяет различные режимы ввода, такие как изображения, текст, аудио и видео, станет ключевым шагом к созданию универсального искусственного интеллекта. Модель анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и проходит визуальный тест IQ.
Систему Kosmos-1 разработчики называют «мультимодальной моделью большого языка» (MLLM). Она принимает входящую информацию в виде серии токенов, а специальные маркеры указывают на начало и конец встраивания закодированного изображения.
Модуль внедрения применяется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем вложения подаются в декодер, а для входных токенов используется таблица поиска, чтобы сопоставить их с вложениями. После обучения исследователи оценили способности Kosmos-1.
Нейросеть понимает язык, генерирует текст, классифицирует его без оптического распознавания символов, генерирует подписи к изображениям, дает визуальные ответы на вопросы, ответы на вопросы веб-страниц и классифицирует изображения. По результатам многих из этих тестов модель превзошла современные аналоги.
Здесь мы рассказывали про нейросети для обработки изображений:
Использованные источники:

