Группа исследователей под руководством Армина Бергера опубликовала работу, демонстрирующую фундаментальную проблему применения обучения с подкреплением (RL) для медицинских языковых моделей. Они обнаружили, что оптимизация модели ChexReason методом GRPO (аналог R1) на одном наборе данных приводит к значительному падению качества на данных из других медицинских учреждений.
Эксперименты показали, что после RL-оптимизации производительность модели на целевом наборе CheXpert выросла на 23%, но при переносе на данные NIH упала на 19%. При этом базовая модель, дообученная только контролируемым образом (SFT), демонстрировала улучшение на обоих наборах. Проблема наблюдается и у крупных моделей, таких как NV-Reason-CXR-3B, что указывает на системную ошибку парадигмы RL, а не на недостаток масштаба.
Это критически важно для внедрения ИИ в клиническую практику, где модели должны стабильно работать с данными разных больниц, аппаратов и популяций пациентов. Авторы называют это «парадоксом обобщения»: RL чрезмерно специализирует модель под конкретный бенчмарк, жертвуя её способностью к переносу знаний.
Исследователи приходят к выводу, что для развёртывания в медицине тщательно подобранное контролируемое дообучение может быть надёжнее агрессивной RL-оптимизации. Это ставит под вопрос текущие подходы к оценке медицинских ИИ, где главным критерием часто является результат на ограниченном наборе тестовых данных.