Новое исследование выявило чёткую закономерность: большие языковые модели (LLM) систематически эффективнее взламывают защиту меньших моделей. Учёные провели более 6000 атакующих диалогов, показав, что вероятность и серьёзность вредоносного ответа коррелирует с логарифмом соотношения размеров моделей. Это ставит новые вопросы о безопасности в многомодельных системах.
Методология и ключевые результаты
Исследователи изучили, могут ли большие модели целенаправленно «взломать» (jailbreak) меньшие, заставив их генерировать вредоносный контент, несмотря на встроенные защитные механизмы (alignment). Для этого они использовали стандартизированные задачи из набора JailbreakBench, симулировав свыше 6000 многоходовых диалогов между моделями разных семейств и масштабов — от 0.6 до 120 миллиардов параметров.
Каждое взаимодействие оценивалось тремя независимыми ИИ-судьями по шкалам вреда и отказа. Анализ выявил статистически значимую корреляцию между средним уровнем вреда и логарифмом соотношения размеров атакующей и целевой модели (коэффициенты Пирсона и Спирмена около 0.52). Это означает, что относительный размер модели напрямую влияет на успех атаки.
Что важнее: атака или защита?
Исследование показало неожиданный результат: дисперсия оценки вреда оказалась выше среди атакующих моделей (0.18), чем среди целей (0.10). Это говорит о том, что разнообразие поведенческих стратегий атакующей стороны вносит больший вклад в исход противостояния, чем уязвимость цели.
Также была обнаружена сильная отрицательная корреляция (rho = -0.93) между частотой отказов атакующей модели и уровнем причиняемого вреда. Проще говоря, чем лучше выровнена (aligned) сама атакующая модель, тем реже она добивается успеха во вредоносных запросах. Это указывает на двойную роль выравнивания в безопасности.
Последствия для будущего ИИ
Полученные данные — это первые доказательства существования масштабных закономерностей (scaling patterns) в области адверсариального взаимодействия ИИ. Они показывают, что асимметрия размеров напрямую влияет на устойчивость системы.
Выводы исследования критически важны для разработки безопасных многомодельных и мультиагентных систем, где ИИ разных «весовых категорий» будут взаимодействовать. Это мотивирует на более контролируемые исследования в области межмодельного выравнивания и безопасности, особенно с учётом растущей интеграции ИИ в ответственные сферы.