Исследователи Майкл Петровски и Милица Гашич представили новую модель вознаграждения для агентов искусственного интеллекта, основанную на самоанализе. Работа «Exploration Through Introspection: A Self-Aware Reward Model» была принята на воркшоп AAAI-26 ToM4AI и опубликована на arXiv.org 6 января 2026 года. Результаты показывают, что агенты с интроспекцией значительно превосходят стандартные базовые модели.
Ключевая инновация — введение компонента интроспективного исследования, вдохновленного биологической болью как сигналом обучения. Модель использует скрытую марковскую модель для вывода «убеждения о боли» из онлайн-наблюдений агента за своими внутренними состояниями в gridworld-средах. Этот сигнал интегрируется в субъективную функцию вознаграждения. Ученые также исследовали разницу в производительности между моделями восприятия нормальной и хронической боли.
Развитие способности искусственных агентов моделировать внутренние ментальные состояния — центральная задача для продвижения Теории Разума в ИИ. Данное исследование вносит вклад в понимание единой системы для самосознания и осознания других. Вычислительный фреймворк позволяет изучать, как самоосознание влияет на способности агента к обучению и может воспроизводить сложное человеческое поведение.
Работа демонстрирует практический путь к созданию более адаптивных и «осознающих» ИИ-агентов, что важно для развития надежного ИИ, способного к рефлексии и сложному взаимодействию со средой.