Александр Пономарёв

Текст

Корпорация Microsoft представила мультимодальную нейросеть Kosmos-1, которая решает головоломки, успешно проходит визуальные тесты и распознает текст

В Microsoft считают, что мультимодальная нейросеть, которая объединяет различные режимы ввода, такие как изображения, текст, аудио и видео, станет ключевым шагом к созданию универсального искусственного интеллекта. Модель анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и проходит визуальный тест IQ.

Систему Kosmos-1 разработчики называют «мультимодальной моделью большого языка» (MLLM). Она принимает входящую информацию в виде серии токенов, а специальные маркеры указывают на начало и конец встраивания закодированного изображения.

Модуль внедрения применяется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем вложения подаются в декодер, а для входных токенов используется таблица поиска, чтобы сопоставить их с вложениями. После обучения исследователи оценили способности Kosmos-1.

Нейросеть понимает язык, генерирует текст, классифицирует его без оптического распознавания символов, генерирует подписи к изображениям, дает визуальные ответы на вопросы, ответы на вопросы веб-страниц и классифицирует изображения. По результатам многих из этих тестов модель превзошла современные аналоги.

Здесь мы рассказывали про нейросети для обработки изображений:

Читать на ЦО.РФ

Поиграть шрифтами Пять областей графики, где нейросети используются для создания и обработки изображений

Создание визуального контента ранее требовало либо умения рисовать, либо хотя бы наглости утверждать, что «художник так видит». Однако, как «железный конь пришел на смену крестьянской лошадке» (с), так и нейросети пришли на выручку тем, кому нужны картинки, но нет таланта к рисованию

Использованные источники: