Группа исследователей представила новый метод Conflict-Aware Sparse Tuning (CAST) для точной настройки безопасности больших языковых моделей (LLM). Метод позволяет избежать типичного ухудшения общих способностей модели при обучении на безопасность за счёт анализа и выборочного обновления только конфликтных механизмов внимания.
Ключевое открытие заключается в том, что конфликт между задачами безопасности и полезности в LLM не является глобальным. Он сосредоточен в небольшой группе так называемых «высококонфликтных» голов внимания внутри трансформерной архитектуры. Обновление именно этих голов во время стандартного обучения безопасности и приводит к падению общей производительности модели. CAST сначала строит карту конфликтов на уровне голов внимания, анализируя их функциональную чувствительность и степень конфликта градиентов, а затем пропускает обновление проблемных голов.
Проблема безопасности ИИ часто требует жертвовать частью полезности модели. Существующие методы решают этот конфликт глобально, применяя единые правила обновления ко всем параметрам модели, что ведёт к неоптимальному компромиссу. Новый подход является интерпретируемым и параметрически эффективным, так как модифицирует лишь небольшую часть модели.
Эксперименты показали, что пропуск обновления небольшой группы высококонфликтных голов внимания во время тонкой настройки позволяет значительно снизить потерю общих способностей модели, не жертвуя при этом её безопасностью. Это открывает путь к более хирургическим и эффективным методам выравнивания ИИ.