Новый алгоритм обучает плоские политики для долгосрочных задач - AI Founder

Новый алгоритм обучает плоские политики для долгосрочных задач

Учёные представили новый алгоритм обучения с подкреплением, который позволяет эффективно обучать «плоские» политики для решения долгосрочных задач без использования сложных иерархических структур.

Исследователи Джон Л. Чжоу и Джонатан С. Као представили новый алгоритм обучения с подкреплением (RL) под названием Flattening Hierarchies with Policy Bootstrapping. Работа принята на конференцию NeurIPS 2025 и получила статус Spotlight (топ-3.2%). Алгоритм позволяет обучать «плоские» (неиерархические) политики для достижения долгосрочных целей, превосходя современные методы на наборах задач по манипуляции и передвижению.

Ключевая идея метода — обучение единой политики с помощью бутстрэппинга на основе подполитик, настроенных на подцели, с использованием взвешенного по преимуществу важностного сэмплирования. Этот подход устраняет необходимость в генеративной модели для создания подцелей, что было основным препятствием для масштабирования в пространствах состояний высокой размерности. Алгоритм работает как с векторными представлениями состояний, так и с пиксельными наблюдениями.

Традиционные методы иерархического RL хорошо справляются с долгосрочными задачами, но требуют создания модульных политик для разных временных масштабов и генерации подцелей, что усложняет систему и плохо масштабируется. Новый метод предлагает более простую и эффективную альтернативу, сохраняя при этом высокую производительность. Он особенно важен для развития автономных систем и робототехники, где необходимо выполнять сложные многоэтапные действия.

Авторы показали, что их алгоритм соответствует или превосходит современные методы офлайн-обучения с подкреплением, ориентированного на цели (GCRL), и масштабируется на сложные задачи, где предыдущие подходы терпели неудачу. Работа открывает путь к созданию более простых и мощных моделей для робототехники и автономных систем.

Мария Соколова
Автор: Мария Соколова

Журналист и аналитик с фокусом на AI-инструменты для стартапов. Пишу о том, как основатели компаний внедряют ИИ для автоматизации и роста выручки.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x