Группа исследователей представила метод LEGATO для плавного и контролируемого удаления чувствительных данных, таких как персональная или защищённая авторским правом информация, из генеративных моделей искусственного интеллекта. Новая технология решает ключевые проблемы существующих подходов к «разучиванию» моделей.
LEGATO использует адаптеры на основе нейронных обыкновенных дифференциальных уравнений, которые дообучаются поверх замороженных весов основной модели. Это позволяет точно контролировать интенсивность забывания через размер шага ODE, обеспечивая интерпретируемость и устойчивость процесса. Метод также включает ограничения траекторной согласованности для предотвращения катастрофического коллапса — резкого ухудшения способности модели сохранять полезные знания.
Проблема удаления данных из ИИ-моделей стала критически важной с ростом регулирования приватности и авторских прав. Существующие методы требуют полной донастройки всех параметров модели, что неэффективно, не позволяет контролировать процесс и часто приводит к катастрофическому ухудшению производительности. LEGATO предлагает принципиально иной подход, моделируя забывание как непрерывную траекторию.
Эксперименты на различных наборах данных показали, что LEGATO достигает наилучших результатов в удалении целевой информации, значительно сокращает количество дообучаемых параметров и эффективно предотвращает коллапс модели. Метод открывает новые возможности для создания более безопасных и регулируемых генеративных систем ИИ.