SCRIBE: новый метод обучения ИИ-агентов с инструментами - AI Founder

SCRIBE: новый метод обучения ИИ-агентов с инструментами

SCRIBE: новый метод обучения ИИ-агентов с инструментами

Исследователи представили SCRIBE — новый фреймворк обучения с подкреплением, который решает проблему присвоения заслуг в многошаговых рассуждениях для ИИ-агентов, использующих инструменты.

Исследователи Юйсюань Цзян и Фрэнсис Ферраро представили фреймворк SCRIBE (Skill-Conditioned Reward with Intermediate Behavioral Evaluation) для обучения языковых моделей, использующих инструменты. Работа опубликована на arXiv.org 7 января 2026 года. Метод показал значительное улучшение: точность модели Qwen3-4B на бенчмарке AIME25 выросла с 43,3% до 63,3%.

Ключевая инновация SCRIBE — введение промежуточного уровня абстракции (mid-level) для оценки действий агента. Вместо оценки общего процесса или низкоуровневых шагов, система использует библиотеку прототипов навыков. Это превращает открытую оценку от языковой модели в задачу верификации по чётким критериям, что резко снижает шум и вариативность наград при обучении с подкреплением.

Проблема обучения надёжных агентов, использующих инструменты, заключается в сложности присвоения заслуг (credit assignment) в многошаговых рассуждениях. Существующие модели оценки на основе LLM часто дают противоречивые сигналы. SCRIBE решает это, предоставляя структурированные критерии для каждого подэтапа задачи, что делает обучение более стабильным и эффективным.

Анализ динамики обучения показал, что овладение навыками среднего уровня предшествует появлению эффективного высокоуровневого планирования. Метод является дополнением к низкоуровневым оптимизациям инструментов и предлагает масштабируемый путь к созданию более автономных и надёжных ИИ-агентов.

Мария Соколова
Автор: Мария Соколова

Журналист и аналитик с фокусом на AI-инструменты для стартапов. Пишу о том, как основатели компаний внедряют ИИ для автоматизации и роста выручки.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x