Исследователи представили фреймворк STAR-S (Self-Taught Reasoning based on Safety rules), предназначенный для повышения защищённости больших языковых моделей (LLM) от взлома (jailbreak attacks). Система создаёт цикл самообучения, в ходе которого модель учится самостоятельно рассуждать о правилах безопасности перед генерацией ответа.
Ключевая идея STAR-S — интеграция обучения рассуждениям в самоподкрепляющийся цикл. Модель генерирует рассуждения, руководствуясь правилами безопасности, после чего эти рассуждения используются для её тонкой настройки. Улучшенная модель производит более качественные данные для рассуждений, которые снова идут на обучение. Эксперименты показали, что этот подход превосходит существующие базовые методы защиты.
Проблема защиты от jailbreak-атак критически важна для безопасного развёртывания LLM. Традиционные методы часто неэффективны против изощрённых атак, которые обходят стандартные фильтры. STAR-S решает эту проблему, обучая модель не просто следовать правилам, а понимать и применять их через внутренние рассуждения.
Предложенный метод открывает путь к созданию более устойчивых и безопасных ИИ-систем, способных самостоятельно адаптироваться к новым угрозам. Код проекта уже доступен для исследовательского сообщества.