Группа исследователей представила RelayLLM — новый фреймворк для эффективных рассуждений языковых моделей. Метод использует совместное декодирование на уровне токенов, что позволяет снизить вычислительные затраты на 98% при сохранении точности. Результаты опубликованы на arXiv.org 8 января 2026 года.
RelayLLM заставляет небольшую языковую модель (SLM) динамически привлекать большую модель (LLM) только для генерации критически важных токенов через специальную команду. Это реализуется с помощью двухэтапного обучения, включающего разогрев и оптимизацию групповой относительной политики (GRPO). В экспериментах LLM использовалась всего для 1,07% токенов.
Проблема в том, что большие модели для сложных рассуждений требуют высоких вычислительных затрат, а маленькие модели часто не обладают достаточной способностью к рассуждениям. Существующие подходы, такие как каскадирование или маршрутизация, работают на грубом уровне, перекладывая целые запросы на LLM, что приводит к значительным потерям.
Эмпирические результаты на шести тестовых наборах показывают, что RelayLLM достигает средней точности 49,52%, эффективно сокращая разрыв в производительности между моделями. Метод предлагает практическое решение для баланса между стоимостью и качеством в задачах, требующих сложных рассуждений.