Павел Иевлев

Текст

ИИ-модель преобразования текста в речь от Amazon демонстрирует способности, которым ее не учили

Недавно компания Amazon представила новую модель преобразования текста в речь (TTS), которая демонстрирует языковые способности, выходящие за рамки ее параметров обучения. Модель, получившая название «Big Adaptive Streamable TTS with Emergent abilities» или BASE TTS, была обучена на наборе из 100 000 часов речевых данных из открытых источников, причем значительная часть из них - на английском языке, чтобы передать нюансы американской речи.

Исследователи, стоящие за проектом, отметили «ультрасовременную естественность» модели при обработке разговорного текста, что свидетельствует о значительном прогрессе в области искусственного интеллекта и обработки естественного языка. Согласно результатам исследования, BASE TTS может генерировать предложения, демонстрирующие языковые скачки, схожие с теми, что совершают люди, изучающие язык, что традиционно является сложной задачей для моделей искусственного интеллекта.

Прорыв оценивался по критериям, разработанным при участии эксперта-лингвиста, которые указывали на способность модели справляться со сложными лингвистическими задачами без явного обучения. К таким задачам относятся разбор недостоверных предложений, выделение фраз в составе сложных существительных, передача эмоциональной или беззвучной речи, а также точная фонемная передача иностранных слов.

Чтобы изучить концепцию «возникающих способностей» - способностей, не поддающихся прямому обучению, - команда Amazon также обучила две небольшие модели на подмножествах данных: одну - на 1 000 часов, другую - на 10 000 часов речевых данных. Удивительно, но модель, обученная на 10 000 часов, продемонстрировала высочайший уровень развития новых способностей, превзойдя своих коллег в понимании пунктуации, неанглийских слов и эмоциональных нюансов.

Этот вывод опровергает общепринятое мнение о том, что большие массивы данных неизменно приводят к лучшим результатам, особенно в плане развития тонких языковых способностей. Напротив, он предполагает, что может существовать оптимальный масштаб обучения, который способствует появлению продвинутых лингвистических способностей в моделях ИИ.

Как работают языковые модели:

Читать на ЦО.РФ

ChatGPT: Языковая модель и текстовый ИИ  Что такое ChatGPT, для чего он нужен, куда развивается и что о себе думает

ChatGPT называют «прорывом, равным по значению появлению интернета», и о нем написано много статей. Однако мы решили спросить «Что такое ChatGPT?» у самого ChatGPT. Кто, как не он, имеет наилучший ответ о себе?

Использованные источники: