Александр Пономарёв

Текст

Новый сервис представляет собой ИИ-инструмент на основе нейросетевой генеративной модели для проверки орфографии в текстах на русском языке

Как сообщает пресс-служба «Сбера», решение может применяться для корректуры текста любой длины и формата — в копирайтинге и редактуре, при создании маркетинговых и рекламных материалов, в работе редакций. Сервис разработан компанией SberDevices и доступен в каталоге AI Services на платформе ML Space для зарегистрированных пользователей.

По итогам разработки методологии генеративной коррекции орфографии для русского языка, которая показывает качество уровня SOTA на задаче проверки орфографии, выпущена библиотека SAGE с открытым исходным кодом, семейство предобученных генеративных моделей (ruM2M100-1.2B, ruM2M100-418M, FredT5-large-spell, T5-large-spell) для корректуры правописания на русском и английском языках, а также хаб с размеченными данными для задачи коррекции орфографии в текстах разных доменов.

Инструмент опережает по качеству открытые решения для русского языка и проприетарные модели конкурентов, отмечает Сбербанк, а прирост в метриках относительно других решений является следствием разработанной методологии. При помощи двух методов аугментации ошибок для воспроизведения естественных человеческих опечаток и орфографических ошибок создан корпус текстов с ошибками, на котором обучались генеративные модели M2M100 и FredT5-large.

Второй этап заключался в дообучении моделей на комбинации собранных параллельных датасетов для исправления орфографии. Лучшая конфигурация полученного ИИ-решения как раз и представлена в виде AI-сервиса на платформе ML Space.

Здесь мы рассказываем о так называемой «новой грамотности»:

Читать на ЦО.РФ

Садись, два! Лингвист — о «новой грамотности», которую нам всем придется освоить

Компьютеры сделали письмо проще. Ошибку в тексте легко заметить, описку — ​исправить, неудачную формулировку — ​удалить. Встроенный словарь на лету подсказывает верное написание. Наконец‑то каждый может изъясняться грамотно! Может, но почему‑то не хочет... Лингвист, доктор филологических наук, профессор НИУ ВШЭ и РГГУ, Максим Кронгауз рассказывает об особенностях интернет-­коммуникации последних лет

Использованные источники: Unsplash