Исследователи Сол Яркони, Махмуд Шариф и Рой Ливни представили новую атаку на генеративные модели, позволяющую восстанавливать изображения из обучающих данных с помощью простых, «безобидных» текстовых запросов. Метод требует низких вычислительных ресурсов и не предполагает доступа к исходному набору данных для обучения.
Атака основана на выявлении шаблонных связей между текстовыми описаниями и визуальными элементами в данных, часто используемых для обучения моделей, таких как скрапированные данные электронной коммерции. Например, для одной из существующих моделей запрос «синяя футболка унисекс» генерирует лицо реального человека, что демонстрирует уязвимость.
Ранее подобные атаки требовали значительных вычислительных мощностей, частичного доступа к обучающему набору или тщательно сконструированных промптов. Новая работа показывает, что реконструкция может происходить непреднамеренно, даже у пользователей без специальных знаний, что повышает риски, связанные с приватностью и авторскими правами.
Код атаки находится в открытом доступе, что позволяет сообществу исследовать и устранять подобные уязвимости. Работа подчёркивает необходимость более ответственного подхода к сбору данных и обучению генеративных моделей для минимизации рисков утечки информации.