RL-оптимизация ухудшает перенос моделей в медицине - AI Founder

RL-оптимизация ухудшает перенос моделей в медицине

Новое исследование выявило парадокс: дообучение с подкреплением улучшает результаты медицинских ИИ-моделей на стандартных тестах, но резко снижает их способность работать с данными из других больниц.

Группа исследователей под руководством Армина Бергера опубликовала работу, демонстрирующую фундаментальную проблему применения обучения с подкреплением (RL) для медицинских языковых моделей. Они обнаружили, что оптимизация модели ChexReason методом GRPO (аналог R1) на одном наборе данных приводит к значительному падению качества на данных из других медицинских учреждений.

Эксперименты показали, что после RL-оптимизации производительность модели на целевом наборе CheXpert выросла на 23%, но при переносе на данные NIH упала на 19%. При этом базовая модель, дообученная только контролируемым образом (SFT), демонстрировала улучшение на обоих наборах. Проблема наблюдается и у крупных моделей, таких как NV-Reason-CXR-3B, что указывает на системную ошибку парадигмы RL, а не на недостаток масштаба.

Это критически важно для внедрения ИИ в клиническую практику, где модели должны стабильно работать с данными разных больниц, аппаратов и популяций пациентов. Авторы называют это «парадоксом обобщения»: RL чрезмерно специализирует модель под конкретный бенчмарк, жертвуя её способностью к переносу знаний.

Исследователи приходят к выводу, что для развёртывания в медицине тщательно подобранное контролируемое дообучение может быть надёжнее агрессивной RL-оптимизации. Это ставит под вопрос текущие подходы к оценке медицинских ИИ, где главным критерием часто является результат на ограниченном наборе тестовых данных.

Елена Петрова
Автор: Елена Петрова

Продуктовый дизайнер с фокусом на AI-инструментах. Тестирует и сравнивает нейросети для креативных профессий.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x