Исследователи Юйсюань Цзян и Фрэнсис Ферраро представили фреймворк SCRIBE (Skill-Conditioned Reward with Intermediate Behavioral Evaluation) для обучения языковых моделей, использующих инструменты. Работа опубликована на arXiv.org 7 января 2026 года. Метод показал значительное улучшение: точность модели Qwen3-4B на бенчмарке AIME25 выросла с 43,3% до 63,3%.
Ключевая инновация SCRIBE — введение промежуточного уровня абстракции (mid-level) для оценки действий агента. Вместо оценки общего процесса или низкоуровневых шагов, система использует библиотеку прототипов навыков. Это превращает открытую оценку от языковой модели в задачу верификации по чётким критериям, что резко снижает шум и вариативность наград при обучении с подкреплением.
Проблема обучения надёжных агентов, использующих инструменты, заключается в сложности присвоения заслуг (credit assignment) в многошаговых рассуждениях. Существующие модели оценки на основе LLM часто дают противоречивые сигналы. SCRIBE решает это, предоставляя структурированные критерии для каждого подэтапа задачи, что делает обучение более стабильным и эффективным.
Анализ динамики обучения показал, что овладение навыками среднего уровня предшествует появлению эффективного высокоуровневого планирования. Метод является дополнением к низкоуровневым оптимизациям инструментов и предлагает масштабируемый путь к созданию более автономных и надёжных ИИ-агентов.