Группа исследователей из нескольких университетов представила работу «Троян в словаре: скрытый саботаж композиции LLM». Они обнаружили и продемонстрировали новую уязвимость в цепочке поставок открытых языковых моделей, возникающую при их объединении.
Атака основана на создании специального «токена-разрушителя». В модели-доноре этот токен функционально инертен и не вызывает подозрений. Однако после процедуры «трансплантации токенизатора», необходимой для совмещения словарей разных моделей, этот токен реконструируется в высоко значимый вредоносный признак в базовой модели. Это саботирует генерацию текста целевой моделью, в то время как полезность модели-донора остаётся статистически неотличимой от нормальной.
Уязвимость затрагивает ключевые методы композиции моделей: слияние весов, спекулятивное декодирование и расширение словаря. Эти техники активно используются в open-weight экосистеме для ремиксации возможностей моделей из разных источников. Атака является бестренировочной, использует геометрию повторного использования коэффициентов и реализуется через разреженный решатель.
Внедрённый вредоносный функционал демонстрирует структурную устойчивость к дообучению и слиянию весов, а также использует спектральную мимикрию для уклонения от обнаружения как выброс. Это указывает на скрытые риски в набирающем популярность пайплайне модульного создания ИИ.