Конфликты безопасности в ИИ решаются точечно, а не глобально - AI Founder

Конфликты безопасности в ИИ решаются точечно, а не глобально

Конфликты безопасности в ИИ решаются точечно, а не глобально

Исследователи предложили метод CAST для точной настройки безопасности больших языковых моделей, который избегает ухудшения их общих способностей за счёт анализа отдельных механизмов внимания.

Группа исследователей представила новый метод Conflict-Aware Sparse Tuning (CAST) для точной настройки безопасности больших языковых моделей (LLM). Метод позволяет избежать типичного ухудшения общих способностей модели при обучении на безопасность за счёт анализа и выборочного обновления только конфликтных механизмов внимания.

Ключевое открытие заключается в том, что конфликт между задачами безопасности и полезности в LLM не является глобальным. Он сосредоточен в небольшой группе так называемых «высококонфликтных» голов внимания внутри трансформерной архитектуры. Обновление именно этих голов во время стандартного обучения безопасности и приводит к падению общей производительности модели. CAST сначала строит карту конфликтов на уровне голов внимания, анализируя их функциональную чувствительность и степень конфликта градиентов, а затем пропускает обновление проблемных голов.

Проблема безопасности ИИ часто требует жертвовать частью полезности модели. Существующие методы решают этот конфликт глобально, применяя единые правила обновления ко всем параметрам модели, что ведёт к неоптимальному компромиссу. Новый подход является интерпретируемым и параметрически эффективным, так как модифицирует лишь небольшую часть модели.

Эксперименты показали, что пропуск обновления небольшой группы высококонфликтных голов внимания во время тонкой настройки позволяет значительно снизить потерю общих способностей модели, не жертвуя при этом её безопасностью. Это открывает путь к более хирургическим и эффективным методам выравнивания ИИ.

Мария Соколова
Автор: Мария Соколова

Журналист и аналитик с фокусом на AI-инструменты для стартапов. Пишу о том, как основатели компаний внедряют ИИ для автоматизации и роста выручки.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x