Новый метод R²VPO ускоряет тонкую настройку языковых моделей - AI Founder

Новый метод R²VPO ускоряет тонкую настройку языковых моделей

Новый метод R²VPO ускоряет тонкую настройку языковых моделей

Исследователи представили метод R²VPO для тонкой настройки языковых моделей, который повышает производительность на 17% и требует в два раза меньше данных для обучения.

Группа исследователей представила новый метод оптимизации политик R²VPO для эффективной тонкой настройки больших языковых моделей. Результаты показывают, что метод обеспечивает прирост производительности до 17% по сравнению с существующими подходами и требует примерно на 50% меньше данных для достижения конвергенции.

Метод R²VPO предлагает принципиально новый подход к ограничению дивергенции политик. Вместо жёсткого ограничения, как в PPO, он контролирует дисперсию отношения политик. Это позволяет сохранять градиенты от ценных, но редких траекторий обучения, которые часто обрезаются стандартными методами. Кроме того, метод поддерживает взвешенное повторное использование устаревших данных, что значительно повышает эффективность использования выборок.

Тонкая настройка языковых моделей с помощью обучения с подкреплением стала стандартом для их выравнивания. Однако доминирующие методы, такие как PPO, используют эвристическое жёсткое ограничение, которое может подавлять важные, но редкие обучающие сигналы и приводит к неэффективному использованию данных. R²VPO решает эти проблемы, предлагая более плавное и теоретически обоснованное ограничение.

Метод был протестирован на моделях DeepSeek-Distill-Qwen-1.5B и openPangu-Embedded на задачах математического рассуждения. Улучшение стабильности и эффективности обучения делает R²VPO перспективным направлением для выравнивания языковых моделей.

Елена Петрова
Автор: Елена Петрова

Продуктовый дизайнер с фокусом на AI-инструментах. Тестирует и сравнивает нейросети для креативных профессий.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x