Исследователи Цзюнькай Ло и Инглун Чжу представили новый метод онлайн-тонкой настройки архитектуры Decision Transformers (DT), который использует исключительно градиенты обучения с подкреплением (RL). Работа, опубликованная на arXiv.org 1 января 2026 года, демонстрирует, что предложенные алгоритмы превосходят существующие подходы и устанавливают новый рекорд производительности на нескольких тестовых наборах данных.
Ключевым прорывом стало решение проблемы перемаркировки вознаграждений (hindsight return relabeling) — стандартного приёма в онлайн-настройке DT. Авторы выявили, что этот метод, полезный для обучения с учителем, принципиально несовместим с RL-алгоритмами на основе важного сэмплирования, такими как GRPO, что ведёт к нестабильности обучения. Новый подход адаптирует GRPO для DT и вводит несколько модификаций: оптимизацию на под-траекториях для лучшего распределения заслуг, последовательностные вероятностные цели для стабильности и эффективности, а также активное сэмплирование для исследования неопределённых областей.
Decision Transformers стали мощным инструментом для последовательного принятия решений, формулируя офлайн-обучение с подкреплением как задачу моделирования последовательностей. Однако их применение в онлайн-сценариях с чистыми RL-градиентами оставалось малоизученным, так как существующие методы по-прежнему полагались на цели обучения с учителем. Новое исследование закрывает этот пробел, предлагая принципиально иной путь адаптации моделей к новым данным в реальном времени.
Результаты экспериментов подтверждают, что методы на основе чистого RL обеспечивают более стабильное и эффективное обучение по сравнению с гибридными подходами, открывая путь для более гибкого и мощного применения трансформеров в робототехнике, играх и автономных системах.