Группа исследователей представила новый бенчмарк ReEfBench, предназначенный для количественной оценки эффективности процесса рассуждений больших языковых моделей (LLM). Работа была опубликована на arXiv 7 января 2026 года. Основная цель — определить, достигают ли модели успеха за счет глубокого логического мышления или просто генерируют избыточный текст.
Авторы разработали нейро-символический фреймворк для неинтрузивной, процессо-ориентированной оценки. С его помощью они выявили четыре поведенческих прототипа моделей и диагностировали типичные ошибки. Ключевой вывод: увеличение количества сгенерированных токенов не является обязательным условием для глубоких рассуждений. Эффективность не всегда коррелирует с длиной ответа.
Исследование критически важно, потому что текущие методы оценки, такие как Chain-of-Thought (CoT), часто фокусируются на итоговом ответе, а не на качестве самого мыслительного процесса. Это мешает понять истинные способности модели к логике. ReEfBench позволяет оценить, насколько эффективно модель использует свои «вычислительные ресурсы» для решения задачи, а не просто измеряет правильность конечного результата.
Ученые также изучили влияние режима вывода, стратегии обучения и масштаба модели. Они обнаружили, что смешивание длинных и коротких данных CoT при обучении может привести к преждевременному насыщению и коллапсу рассуждений. Кроме того, дистилляция знаний в меньшие модели позволяет скопировать длину рассуждений, но не их логическую эффективность из-за фундаментальных ограничений емкости модели.