Код OmniFusion опубликовали OmniFusion 1.1 теперь доступна для коммерческого использования
Российские разработчики представили первую мультимодальную языковую модель OmniFusion, поддерживающую русский язык и способную обрабатывать визуальные данные наряду с текстом. Модель разработана силами научно-исследовательского института ИИ (AIRI) при поддержке Sber AI и SberDevices. OmniFusion способна, например, восстанавливать рецепт блюда по его фотографии или решать математические задачи, написанные на доске.
Открытая версия OmniFusion 1.1 уже доступна для широкой публики, а ее техническая документация заняла первое место среди трендовых статей на платформе HuggingFace. Исходный код и веса модели могут быть использованы как в научных, так и в коммерческих целях.
Основу OmniFusion составляет сочетание предварительно обученной большой языковой модели с визуальными энкодерами, позволяющими преобразовывать изображения в числовые векторы (эмбеддинги).
OmniFusion расширяет возможности традиционных языковых моделей за счет интеграции визуальных данных и, потенциально, аудио, 3D- и видеоконтента. На данный момент модель успешно справляется с задачами распознавания и описания изображений, а при дополнительном обучении на профильных датасетах может анализировать медицинские снимки и выявлять потенциальные проблемы.
Что такое ИИ:
Использованные источники: