Павел Иевлев

Текст

Большие языковые модели ИИ не могут правильно подсчитать количество букв в слове «strawberry»

Несмотря на впечатляющие достижения больших языковых моделей (LLM) вроде GPT-4 и Claude в написании эссе и решении сложных задач, они все еще сталкиваются с казалось бы простыми проблемами. Одним из последних примеров стала неспособность ИИ правильно посчитать количество букв «r» в английском слове «strawberry» (клубника).

Эта проблема связана с архитектурой трансформеров, на которой основаны LLM. Трансформеры разбивают текст на токены, которые могут представлять собой полные слова, слоги или буквы, в зависимости от модели. Мэтью Гуздиал, исследователь искусственного интеллекта и доцент Университета Альберты, объясняет, что трансформеры не «читают» текст в привычном смысле. Вместо этого текст преобразуется в числовые представления, которые используются для создания логичных ответов. Однако это приводит к тому, что ИИ не может точно обработать порядок букв в слове и правильно посчитать их количество.

Например, если задать ChatGPT вопрос, сколько раз буква «r» встречается в слове «strawberry», модель, скорее всего, ответит «дважды», что неверно. Шеридан Фойхт, аспирант Северо-восточного университета, изучающий интерпретируемость LLM, отмечает, что проблема кроется в самой токенизации, которая не всегда четко разделяет слова и их части. Он считает, что идеального токенизатора не существует, и для точности моделям нужно напрямую анализировать символы, что пока сложно реализовать с точки зрения вычислительных ресурсов.

Проблемы становятся еще более сложными, когда LLM работают с несколькими языками, особенно теми, которые не используют пробелы для разделения слов. Это приводит к значительным различиям в количестве токенов, необходимых для передачи смысла, что также усложняет задачу для ИИ.

Несмотря на эти ограничения, OpenAI работает над новым ИИ-продуктом под кодовым названием Strawberry, который должен быть более умелым в рассуждениях и решении сложных задач, включая кроссворды и математические уравнения.

Как работает ChatGPT:

Читать на ЦО.РФ

ChatGPT: Языковая модель и текстовый ИИ  Что такое ChatGPT, для чего он нужен, куда развивается и что о себе думает

ChatGPT называют «прорывом, равным по значению появлению интернета», и о нем написано много статей. Однако мы решили спросить «Что такое ChatGPT?» у самого ChatGPT. Кто, как не он, имеет наилучший ответ о себе?

Использованные источники: