Исследователи Брайан Текмен, Джейсон Инь и Цяньцянь Тонг представили новый метод I-GEM для непрерывного обучения больших языковых моделей (LLM). Работа была принята на симпозиум NSF REU в рамках конференции IEEE ICDM 2025 и опубликована на arXiv. Метод сочетает подход Gradient Episodic Memory (GEM) с адаптерами LoRA, что позволяет значительно ускорить процесс обучения.
Ключевая инновация — применение ограничений GEM не ко всей модели, а только к параметрам адаптеров LoRA. Это реализовано через двойную проекцию градиента. На тестах с моделью GPT-2 (355 млн параметров) и набором данных AG News I-GEM показал точность, сопоставимую с оригинальным GEM, и превзошёл метод A-GEM примерно на 1,4 пункта.
Полная тонкая настройка LLM требует огромных вычислительных ресурсов. Непрерывное обучение позволяет моделям адаптироваться к новым задачам, не забывая старые. Однако существующие методы, такие как GEM, требуют решения сложной квадратичной задачи оптимизации на каждом шаге, что крайне затратно для моделей с миллиардами параметров. I-GEM решает эту проблему.
Главный практический результат — сокращение времени на операцию проекции примерно в 1000 раз по сравнению с классическим GEM. Это открывает путь для практического применения непрерывного обучения в масштабах современных LLM, делая его более доступным с точки зрения требований к GPU.