STAR-S: Новая система защиты ИИ от взлома через самообучение - AI Founder

STAR-S: Новая система защиты ИИ от взлома через самообучение

STAR-S: Новая система защиты ИИ от взлома через самообучение

Учёные разработали STAR-S — фреймворк, который учит языковые модели самостоятельно рассуждать о правилах безопасности, чтобы эффективнее противостоять взлому.

Исследователи представили фреймворк STAR-S (Self-Taught Reasoning based on Safety rules), предназначенный для повышения защищённости больших языковых моделей (LLM) от взлома (jailbreak attacks). Система создаёт цикл самообучения, в ходе которого модель учится самостоятельно рассуждать о правилах безопасности перед генерацией ответа.

Ключевая идея STAR-S — интеграция обучения рассуждениям в самоподкрепляющийся цикл. Модель генерирует рассуждения, руководствуясь правилами безопасности, после чего эти рассуждения используются для её тонкой настройки. Улучшенная модель производит более качественные данные для рассуждений, которые снова идут на обучение. Эксперименты показали, что этот подход превосходит существующие базовые методы защиты.

Проблема защиты от jailbreak-атак критически важна для безопасного развёртывания LLM. Традиционные методы часто неэффективны против изощрённых атак, которые обходят стандартные фильтры. STAR-S решает эту проблему, обучая модель не просто следовать правилам, а понимать и применять их через внутренние рассуждения.

Предложенный метод открывает путь к созданию более устойчивых и безопасных ИИ-систем, способных самостоятельно адаптироваться к новым угрозам. Код проекта уже доступен для исследовательского сообщества.

Александр Чернов
Автор: Александр Чернов

Редактор с бэкграундом в продуктовом менеджменте и разработке. Специализируется на материалах о применении ИИ в EdTech и B2B-сегменте.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x