Новый метод I-GEM ускоряет обучение больших языковых моделей в 1000 раз - AI Founder

Новый метод I-GEM ускоряет обучение больших языковых моделей в 1000 раз

Новый метод I-GEM ускоряет обучение больших языковых моделей в 1000 раз

Учёные разработали метод I-GEM, который позволяет эффективно обучать большие языковые модели на новых задачах, сокращая время вычислений в тысячу раз по сравнению с предыдущими подходами.

Исследователи Брайан Текмен, Джейсон Инь и Цяньцянь Тонг представили новый метод I-GEM для непрерывного обучения больших языковых моделей (LLM). Работа была принята на симпозиум NSF REU в рамках конференции IEEE ICDM 2025 и опубликована на arXiv. Метод сочетает подход Gradient Episodic Memory (GEM) с адаптерами LoRA, что позволяет значительно ускорить процесс обучения.

Ключевая инновация — применение ограничений GEM не ко всей модели, а только к параметрам адаптеров LoRA. Это реализовано через двойную проекцию градиента. На тестах с моделью GPT-2 (355 млн параметров) и набором данных AG News I-GEM показал точность, сопоставимую с оригинальным GEM, и превзошёл метод A-GEM примерно на 1,4 пункта.

Полная тонкая настройка LLM требует огромных вычислительных ресурсов. Непрерывное обучение позволяет моделям адаптироваться к новым задачам, не забывая старые. Однако существующие методы, такие как GEM, требуют решения сложной квадратичной задачи оптимизации на каждом шаге, что крайне затратно для моделей с миллиардами параметров. I-GEM решает эту проблему.

Главный практический результат — сокращение времени на операцию проекции примерно в 1000 раз по сравнению с классическим GEM. Это открывает путь для практического применения непрерывного обучения в масштабах современных LLM, делая его более доступным с точки зрения требований к GPU.

Мария Соколова
Автор: Мария Соколова

Журналист и аналитик с фокусом на AI-инструменты для стартапов. Пишу о том, как основатели компаний внедряют ИИ для автоматизации и роста выручки.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x