Ученые разоблачили «мышление» ИИ
16- 1.06.2025, 17:40
- 9,488

Цепочки мыслей — лишь иллюзия разума.
Многие продвинутые языковые модели, такие как Deepseek R1 или o-серия OpenAI, разбивают сложные задачи на серию промежуточных шагов, часто называемых «цепочками мыслей». Эти шаги, видимые в интерфейсах чатов, создают впечатление разворачивающегося процесса рассуждения.
Однако исследователи из Университета штата Аризона в опубликованной статье предостерегают, что эти текстовые последовательности — всего лишь статистически сгенерированные результаты, лишенные истинного семантического содержания или алгоритмического значения. Считать их отражением внутренних механизмов модели создает ложное ощущение прозрачности и контроля, что можно сравшить с мышлением «карго-культа».
Команда ссылается на эксперименты, которые опровергают представление о промежуточных шагах как о рассуждениях. В некоторых случаях модели, обученные с бессмысленными или некорректными промежуточными шагами, показывали лучшие результаты, чем те, что использовали логически последовательные цепочки.
Например, модель Deepseek R1-Zero, использовавшая смешанные англо-китайские промежуточные токены, превзошла более позднюю версию, оптимизированную для удобочитаемости человеком. Это говорит о том, что содержание этих шагов менее важно, чем их роль в направлении модели к правильному конечному ответу.
Обучение с подкреплением подтверждает эту точку зрения: модели можно обучить генерировать любые промежуточные токены — логичные или нет, — если конечный результат точен. Исследователи также указывают на случаи, когда модели используют человекоподобные выражения, такие как «ага» или «хм», которые часто принимают за признаки прозрения, но на деле они являются лишь статистически вероятными продолжениями текста.
Статья предупреждает, что неверная интерпретация цепочек мыслей имеет серьезные последствия. Некоторые исследователи пытались сделать эти шаги более интерпретируемыми или использовали их длину и ясность как показатели сложности задачи, несмотря на отсутствие доказательств связи между этими факторами и производительностью модели. Исследования показали слабую корреляцию между правильностью промежуточных шагов и точностью конечных ответов, что подрывает их предполагаемую значимость.