Исследователь Инь Ли в работе, опубликованной на arXiv 24 декабря 2025 года, систематически изучил самокоррекцию больших языковых моделей (LLM) и обнаружил парадокс «точность-коррекция». Эксперименты на трёх крупных моделях показали, что внутренняя самокоррекция без внешней обратной связи остаётся в основном неэффективной.
В ходе экспериментов на 500 задачах GSM8K-Complex выявлен удивительный результат: более слабая модель GPT-3.5 с точностью 66% достигла коэффициента внутренней коррекции в 1,6 раза выше (26,8%), чем более мощная модель DeepSeek с точностью 94% (16,7%). Автор предлагает «гипотезу глубины ошибок»: сильные модели совершают меньше ошибок, но эти ошибки являются более «глубокими» и устойчивыми к самокоррекции. Способность обнаруживать ошибки также сильно варьировалась: от 10% у Claude до 82% у другой модели, но это не предсказывало успех в их исправлении.
Исследование важно, поскольку ставит под сомнение линейные представления о развитии способностей ИИ. Оно показывает, что повышение общей точности модели не гарантирует улучшения её способности к самоисправлению. Это имеет ключевое значение для проектирования конвейеров самообучения и дообучения моделей, где самокоррекция считается важным инструментом.
Результаты бросают вызов распространённым предположениям и указывают на необходимость более тонкого подхода к оценке и улучшению LLM, учитывающего не только итоговую точность, но и природу совершаемых ошибок.