Павел Иевлев

Текст

Российские исследователи выпустили мультимодальную модель ИИ OmniFusion 1.1 с открытым исходным кодом

Российские разработчики представили первую мультимодальную языковую модель OmniFusion, поддерживающую русский язык и способную обрабатывать визуальные данные наряду с текстом. Модель разработана силами научно-исследовательского института ИИ (AIRI) при поддержке Sber AI и SberDevices. OmniFusion способна, например, восстанавливать рецепт блюда по его фотографии или решать математические задачи, написанные на доске.

Открытая версия OmniFusion 1.1 уже доступна для широкой публики, а ее техническая документация заняла первое место среди трендовых статей на платформе HuggingFace. Исходный код и веса модели могут быть использованы как в научных, так и в коммерческих целях.

Основу OmniFusion составляет сочетание предварительно обученной большой языковой модели с визуальными энкодерами, позволяющими преобразовывать изображения в числовые векторы (эмбеддинги).

OmniFusion расширяет возможности традиционных языковых моделей за счет интеграции визуальных данных и, потенциально, аудио, 3D- и видеоконтента. На данный момент модель успешно справляется с задачами распознавания и описания изображений, а при дополнительном обучении на профильных датасетах может анализировать медицинские снимки и выявлять потенциальные проблемы.

Что такое ИИ:

Читать на ЦО.РФ

Искусственный интеллект  Что это такое и где он используется?

Почему искусственный интеллект (ИИ) никогда не сможет мыслить как человек, в чем различия между искусственным и естественным интеллектами, а также где ИИ сегодня находит себе применение? Ответы на эти и другие вопросы в нашем материале

Использованные источники: