Исследователь Джун Ван представил работу «Memento 2: Learning by Stateful Reflective Memory», в которой формализован процесс непрерывного обучения ИИ-агентов на основе больших языковых моделей (LLM) с использованием рефлексивной памяти. Алгоритм позволяет агентам адаптироваться к новым задачам без тонкой настройки весов модели, что является ключевым для создания автономных систем.
В основе работы лежит введённая концепция Stateful Reflective Decision Process (SRDP). В этом процессе агент поддерживает эпизодическую память, чередуя запись нового опыта и чтение релевантных случаев из памяти для принятия решений. Разработанный алгоритм Read-Write Reflective Learning интегрирует поиск в памяти в процедуру мягкой итерации политик. Доказана его сходимость, а также показано, что с ростом памяти и покрытием среды политика агента приближается к оптимальной.
Работа важна для развития автономных ИИ-агентов, способных к постоянному обучению на основе опыта. Большинство современных LLM требуют дорогостоящего переобучения для адаптации, тогда как предложенный подход позволяет агенту «размышлять» над прошлыми действиями и корректировать будущее поведение, используя только контекст памяти. Это объединяет рассуждения на основе памяти с обучением с подкреплением.
Предложенный формальный фундамент открывает путь к созданию более гибких и эффективных ИИ-систем, способных к долгосрочной автономии в сложных средах, от виртуальных ассистентов до робототехники.