Bиталий Кавтарадзе

Текст

Восемь миллиардов человек, населяющих Землю, — ​это сила. Пять миллиардов из них, имеющих доступ в интернет, — ​это уже стихия. Информационные цунами, которые люди с легкостью разгоняют в соцсетях, можно и нужно уметь предсказывать. Для этого достаточно всего лишь читать и понимать все, что пишут пять миллиардов человек

Людям такая работа не по плечу, исследовать коллективное бессознательное в планетарных масштабах можно только с помощью роботов. Специалисты по компьютерной лингвистике и машинному обучению из компании Brand Analytics уже 10 лет учат машины понимать людей. Они рассказали нам, что…

ЯЗЫК — ​ЭТО АЛГОРИТМ, НО…

Люди часто меняют правила по ходу игры. Так, еще в 1960-е годы пионеры компьютерной лингвистики решили представить язык как базу данных слов во всех возможных формах, а также свод правил их использования. При таком подходе обучение машины чтению напоминает знакомые всем уроки русского языка в школе. Учитель одновременно развивает словарный запас учеников и тренирует их определять части речи, проводить синтаксический анализ предложений, морфологический разбор слов по формальным признакам.

Пример: «Танцовщица распрямила кисть». Первое слово — ​существительное «танцовщица», имеет окончание «-а», а значит, используется в именительном падеже, единственном числе, имеет женский род. «Распрямила» — ​глагол, в котором окончание «-а» указывает на прошедшее время. Также можно установить, что «танцовщица» — ​подлежащее, это существительное указывает на объект, совершавший действие.

Такой простой, на первый взгляд, подход позволял машинам неплохо справляться с переводом официальных документов. Если слово нашлось в словаре на одном языке, нетрудно подобрать смысловой аналог из базы данных другого языка. Однако сразу возникли препятствия: алгоритмический анализ спотыкался об омонимы — ​одинаковые слова разного значения. Например, существительное «кисть» может означать часть руки, инструмент для рисования или ветку с ягодами. Для разрешения таких случаев лингвисты добавили в алгоритм анализ контекста, заставив машину смотреть, какие слова связаны со спорным словом. Другой проблемой стали редко используемые в языке слова и термины. Например, фамилию бывшего президента Франции Саркози компьютер может считать несуществующим глаголом «саркозить» в повелительном наклонении. Такие казусы решаются регулярным пополнением словарей, а также анализом частоты упоминания каждого слова вместе с другими.

Однако когда в 2000-е годы появились соцмедиа — ​площадки, на которых пользователи сами оставляют сообщения, — ​языки начали очень быстро ме­няться. Люди стали пользоваться письменной речью как устной, и для выражения интонаций и эмоций потребовались новые инструменты: сокращения, эмодзи, фонетическое письмо. «Дратути» вместо «здравствуйте», «щас» вместо «сейчас» и «кагбэ» вместо «как бы». Чтобы понять такое, машины должны приспособиться к творческому использованию языка человеком.

Григорий Островский
Григорий Островский, CTO Brand Analytics:

В начале нашей работы с лингвистическими алгоритмами мы использовали готовые словари, но быстро поняли, что для качественного распознавания живого языка нужно создавать свои базы данных и тезаурус реального современного языка, а также регулярно их пополнять. Вложения в разработку словарей окупились: нам удалось поднять точность классификации текста и его тональности в среднем с 85 % до 92 %. Позже мы стали первой компанией в мире, разработавшей определение тональности для казахского языка

ЯЗЫК — ​ЭТО ОБОБЩЕННЫЙ ОПЫТ, НО…

Машины ​пока не очень хорошие ученики — уже хорошисты, но не отличники. Однако сегодня они могут не только «сидеть на уроках», но и учиться самостоятельно. Когда в интернете появились миллиарды доступных текстов разного размера и содержания, лингвисты смогли обучать на этих материалах нейронные сети.

Первый прорыв в распознавании смысла и тональности текста и речи искусственным интеллектом произошел с появлением рекуррентных нейросетей. Такие системы обрабатывают предложение как последовательность данных: сначала на вход подается первое слово, затем второе, третье. После обработки каждого элемента нейросеть сохраняет промежуточные «выводы» о значении слов в памяти, а затем уточняет смысл предложения по мере поступления новой информации. Исходя из опыта, полученного при обучении на больших объемах текстов, рекуррентная нейросеть также предполагает, какое слово, вероятнее всего, будет следующим в последовательности. Например, если предложение начинается со слов «Утром я пью…», искусственный интеллект будет ждать «кофе» или «чай» с большей вероятностью, чем «шампанское».

В середине 2010-х годов именно применение рекуррентных моделей позволило создать голосовые помощники на смартфонах Apple и Google Android. Эти нейросети также вывели на новый уровень качество машинного перевода: Google Translate стал почти безошибочно справляться с грамматикой в больших текстах.

Однако человеческая неграмотность все же может сбить с толку рекуррентную нейросеть. Предложение «Я сегодня утром пил ничего, поскольку мне запретил врач» поставило бы машину в тупик, из-за того что контекст находится в конце фразы, а общая последовательность не соответствует ожиданиям. Решить эту проблему помог механизм Attention, который лег в основу модели Transformer. Такая нейросеть анализирует предложение или текст целиком, а не по словам, выделяя в процессе наиболее важные для понимания смысла фрагменты. Но, для того чтобы научить машину правильно «концентрировать внимание» и отделять важное от второстепенного, необходим хороший тренер-человек.

Григорий Островский
Григорий Островский, CTO Brand Analytics:

За годы работы мы своими глазами наблюдали все этапы развития нейронных сетей для лингвистического анализа. Лучшие модели десятилетней давности сейчас можно сравнить с телегами, а сегодня мы уже летаем на космических кораблях по околоземной орбите. Современные языковые модели могут не только понимать написанное, но и вести с пользователем простой диалог. В ближайшие годы качество нейросетей для работы с естественными языками продолжит расти. Мы ограничены вычислительными мощностями, но еще больше мы ограничены нехваткой идей. Нужно лишь время и талантливые специалисты с новыми подходами

ЯЗЫК — ​ЭТО СМЫСЛ, НО…

Что такое смысл? С помощью языка люди решают множество проблем: делятся опытом, передают собственные эмоции или побуждают других к действиям. Однако когда нейросети читают наши сообщения в соцмедиа, у них есть две основные задачи: понять, о чем идет речь в сообщении, и оценить отношение автора к объекту.

Первая задача на языке лингвистов называется связыванием именованных сущностей. Машина должна выделить в сообщении и точно классифицировать объект, к которому относится остальная часть высказывания. Например, в предложении «Я поеду в Киров на выходных» сразу выделяется ключевое слово «Киров». Однако идет ли речь о городе, боевом корабле «Киров» или о человеке по фамилии Киров? В предложении есть сразу несколько подсказок: во‑первых, словосочетание «поеду в…» не может относиться к человеку. Во-вторых, благодаря огромной базе знаний, заложенной при обучении, нейросеть знает о существовании в России города Кирова и сразу предполагает связь текста со знакомым топонимом. В-третьих, машина проверяет, в каком контексте слово чаще всего употребляется пользователями интернета. Поскольку атомный крейсер «Киров» был списан еще в 2002 году, его пределами профильных форумов, а значит, трактовку «Киров — ​это корабль», скорее всего, можно отбросить.

СЛОВАРЬ РУССКОГО МАТА. В русском языке есть лишь три основных матерных корня, но они образуют чуть менее десяти тысяч словоформ с разными смыслами и оттенками, покрывая весь спектр человеческих эмоций. Например, слово «***во» обозначает крайне отрицательную оценку, а «о***тельно», наоборот, выражает восхищение чем-либо. Специалисты Brand Analytics собрали для своих роботов словари русского мата и регулярно пополняют их новыми выражениями из Сети. Эти базы данных обсценной лексики помогают как в простой обработке языка, так и для уточнения силы эмоции в тексте.

Самая ценная информация для исследователей коллективного бессознательного в соцмедиа скрыта в отношении автора к объекту высказывания. Учить нейросети определять, что такое хорошо и что такое плохо, лингвистам приходится вручную. Чтобы натренировать искусственный интеллект чувствовать все оттенки эмоций, люди выделяют в наборах сообщений выражения-маркеры, указывающие на позитивную и негативную тональность. Например, при анализе предложения «Я обожаю Coca-Cola, а Fanta мне меньше нравится» нейросеть сперва найдет две именованные сущности — ​Coca-Cola и Fanta. Затем компьютер понимает, что к объектам относятся разные слова, определяющие тональность. «Обожаю», относящееся к первому напитку, указывает на высокий уровень позитивной реакции автора, а «мне меньше нравится» говорит об умеренно негативном восприятии второго бренда. Благодаря тому что специалисты Brand Analytics вручную обучили лингвистическую модель на десятках и сотнях тысяч размеченных сообщений из интернета, машина может даже считывать сарказм в выражениях авторов. Конечно, компьютеры пока еще далеки от полного понимания всех смысловых оттенков нашей речи. Зато с их помощью мы можем изучать человеческое общество и быть уверенными, что каждый пользователь Сети будет услышан.

Григорий Островский
Григорий Островский, CTO Brand Analytics:

Мы учитываем особые потребности наших заказчиков при настройке нейросетей. Именно они определяют, что считать негативом, а что позитивом. Часто клиенты работают с нашими лингвистами над техническими заданиями. Многие люди считают, что для работы с нейронными сетями нужны колоссальные вычислительные мощности, но это не совсем так. Если новую модель нужно обучить с нуля, без суперкомпьютера действительно не обойтись. Однако мы в Brand Analytics занимаемся тонкой настройкой и дообучением, а для этого не нужны большие вычислительные ресурсы

Читать на ЦО.РФ

Садись, два! Лингвист — о «новой грамотности», которую нам всем придется освоить

Компьютеры сделали письмо проще. Ошибку в тексте легко заметить, описку — ​исправить, неудачную формулировку — ​удалить. Встроенный словарь на лету подсказывает верное написание. Наконец‑то каждый может изъясняться грамотно! Может, но почему‑то не хочет... Лингвист, доктор филологических наук, профессор НИУ ВШЭ и РГГУ, Максим Кронгауз рассказывает об особенностях интернет-­коммуникации последних лет

Использованные источники: Материал опубликован в журнале «Цифровой океан» № 15 (январь-февраль), 2023, andresr / iStock.com, golubovy / iStock.com, BRAND ANALYTIC, DmitryNautilus / iStock.com, ozgurcankaya / iStock.com, Orbon Alija / iStock.com, Dzmitry Kliapitski / Alamy / Legion-media, Viktor Karasev / Alamy / Legion-media, radub85 / iStock.com