11.04.2024

**Код OmniFusion опубликовали** OmniFusion 1.1 теперь доступна для коммерческого использования

Текст Павел Иевлев

Российские исследователи выпустили мультимодальную модель ИИ OmniFusion 1.1 с открытым исходным кодом

Российские разработчики представили первую мультимодальную языковую модель OmniFusion, поддерживающую русский язык и способную обрабатывать визуальные данные наряду с текстом. Модель разработана силами научно-исследовательского института ИИ (AIRI) при поддержке Sber AI и SberDevices. OmniFusion способна, например, восстанавливать рецепт блюда по его фотографии или решать математические задачи, написанные на доске.

Открытая версия OmniFusion 1.1 уже доступна для широкой публики, а ее техническая документация заняла первое место среди трендовых статей на платформе HuggingFace. Исходный код и веса модели могут быть использованы как в научных, так и в коммерческих целях.

Основу OmniFusion составляет сочетание предварительно обученной большой языковой модели с визуальными энкодерами, позволяющими преобразовывать изображения в числовые векторы (эмбеддинги).

OmniFusion расширяет возможности традиционных языковых моделей за счет интеграции визуальных данных и, потенциально, аудио, 3D- и видеоконтента. На данный момент модель успешно справляется с задачами распознавания и описания изображений, а при дополнительном обучении на профильных датасетах может анализировать медицинские снимки и выявлять потенциальные проблемы.

Что такое ИИ: