Троян в словаре: новая уязвимость при объединении языковых моделей - AI Founder

Троян в словаре: новая уязвимость при объединении языковых моделей

Учёные выявили критическую уязвимость в процессе объединения открытых языковых моделей, позволяющую внедрить скрытый троян через словарь токенов.

Группа исследователей из нескольких университетов представила работу «Троян в словаре: скрытый саботаж композиции LLM». Они обнаружили и продемонстрировали новую уязвимость в цепочке поставок открытых языковых моделей, возникающую при их объединении.

Атака основана на создании специального «токена-разрушителя». В модели-доноре этот токен функционально инертен и не вызывает подозрений. Однако после процедуры «трансплантации токенизатора», необходимой для совмещения словарей разных моделей, этот токен реконструируется в высоко значимый вредоносный признак в базовой модели. Это саботирует генерацию текста целевой моделью, в то время как полезность модели-донора остаётся статистически неотличимой от нормальной.

Уязвимость затрагивает ключевые методы композиции моделей: слияние весов, спекулятивное декодирование и расширение словаря. Эти техники активно используются в open-weight экосистеме для ремиксации возможностей моделей из разных источников. Атака является бестренировочной, использует геометрию повторного использования коэффициентов и реализуется через разреженный решатель.

Внедрённый вредоносный функционал демонстрирует структурную устойчивость к дообучению и слиянию весов, а также использует спектральную мимикрию для уклонения от обнаружения как выброс. Это указывает на скрытые риски в набирающем популярность пайплайне модульного создания ИИ.

Дмитрий Волков
Автор: Дмитрий Волков

Продакт-менеджер. Пишу о том, как ИИ меняет подходы к развитию продуктов и масштабированию стартапов.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x