Исследователи под руководством Куна Чжао представили новый фреймворк для генерации радиологических отчётов на основе само-согласованного обучения с подкреплением (Reinforcement Learning). Работа опубликована на arXiv.org 6 января 2026 года. Метод продемонстрировал наилучшие результаты по клинической эффективности на бенчмарке MIMIC-CXR и существенно сократил количество галлюцинаций по сравнению с существующими подходами.
Ключевым нововведением стала архитектура «Reason-then-Summarize» (Рассуждай, затем суммируй), оптимизированная с помощью Group Relative Policy Optimization (GRPO). Система разделяет генерацию отчёта на два блока: блок размышлений для детального описания находок и блок ответов для структурированных меток заболеваний. Многомерная композитная функция вознаграждения явно штрафует логические несоответствия между сгенерированным описанием и итоговым диагнозом.
Проблема генерации радиологических отчётов с помощью мультимодальных больших языковых моделей (MLLMs) связана с архитектурной неоднородностью и распространением фактических галлюцинаций. Стандартное обучение с учителем часто не обеспечивает строгого соответствия лингвистического вывода визуальным данным, а существующие методы обучения с подкреплением сталкиваются с высокими вычислительными затратами или ограниченным исследованием пространства решений. Новый фреймворк напрямую решает эти проблемы.
Предложенный подход повышает доверие к автоматизированной генерации медицинских отчётов, что является критически важным шагом для внедрения ИИ в реальную клиническую практику. Снижение количества ошибок и улучшение согласованности выводов напрямую влияет на безопасность пациентов и качество диагностики.