ИИ не может пересчитать буквы в слове «strawberry» Все из-за архитектуры трансформеров
Несмотря на впечатляющие достижения больших языковых моделей (LLM) вроде GPT-4 и Claude в написании эссе и решении сложных задач, они все еще сталкиваются с казалось бы простыми проблемами. Одним из последних примеров стала неспособность ИИ правильно посчитать количество букв «r» в английском слове «strawberry» (клубника).
Эта проблема связана с архитектурой трансформеров, на которой основаны LLM. Трансформеры разбивают текст на токены, которые могут представлять собой полные слова, слоги или буквы, в зависимости от модели. Мэтью Гуздиал, исследователь искусственного интеллекта и доцент Университета Альберты, объясняет, что трансформеры не «читают» текст в привычном смысле. Вместо этого текст преобразуется в числовые представления, которые используются для создания логичных ответов. Однако это приводит к тому, что ИИ не может точно обработать порядок букв в слове и правильно посчитать их количество.
Например, если задать ChatGPT вопрос, сколько раз буква «r» встречается в слове «strawberry», модель, скорее всего, ответит «дважды», что неверно. Шеридан Фойхт, аспирант Северо-восточного университета, изучающий интерпретируемость LLM, отмечает, что проблема кроется в самой токенизации, которая не всегда четко разделяет слова и их части. Он считает, что идеального токенизатора не существует, и для точности моделям нужно напрямую анализировать символы, что пока сложно реализовать с точки зрения вычислительных ресурсов.
Проблемы становятся еще более сложными, когда LLM работают с несколькими языками, особенно теми, которые не используют пробелы для разделения слов. Это приводит к значительным различиям в количестве токенов, необходимых для передачи смысла, что также усложняет задачу для ИИ.
Несмотря на эти ограничения, OpenAI работает над новым ИИ-продуктом под кодовым названием Strawberry, который должен быть более умелым в рассуждениях и решении сложных задач, включая кроссворды и математические уравнения.
Как работает ChatGPT:
Использованные источники: