RelayLLM: новый метод ускорения ИИ-рассуждений на 98% - AI Founder

RelayLLM: новый метод ускорения ИИ-рассуждений на 98%

RelayLLM: новый метод ускорения ИИ-рассуждений на 98%

Исследователи представили RelayLLM — фреймворк для эффективных рассуждений языковых моделей, который снижает вычислительные затраты на 98% за счёт точечного привлечения мощных моделей.

Группа исследователей представила RelayLLM — новый фреймворк для эффективных рассуждений языковых моделей. Метод использует совместное декодирование на уровне токенов, что позволяет снизить вычислительные затраты на 98% при сохранении точности. Результаты опубликованы на arXiv.org 8 января 2026 года.

RelayLLM заставляет небольшую языковую модель (SLM) динамически привлекать большую модель (LLM) только для генерации критически важных токенов через специальную команду. Это реализуется с помощью двухэтапного обучения, включающего разогрев и оптимизацию групповой относительной политики (GRPO). В экспериментах LLM использовалась всего для 1,07% токенов.

Проблема в том, что большие модели для сложных рассуждений требуют высоких вычислительных затрат, а маленькие модели часто не обладают достаточной способностью к рассуждениям. Существующие подходы, такие как каскадирование или маршрутизация, работают на грубом уровне, перекладывая целые запросы на LLM, что приводит к значительным потерям.

Эмпирические результаты на шести тестовых наборах показывают, что RelayLLM достигает средней точности 49,52%, эффективно сокращая разрыв в производительности между моделями. Метод предлагает практическое решение для баланса между стоимостью и качеством в задачах, требующих сложных рассуждений.

Мария Соколова
Автор: Мария Соколова

Журналист и аналитик с фокусом на AI-инструменты для стартапов. Пишу о том, как основатели компаний внедряют ИИ для автоматизации и роста выручки.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x