Исследователи представили новый метод Dual-Align для исправления систематической излишней уверенности больших языковых моделей (LLM), возникающей после их дообучения. Метод использует предобученную модель в качестве калибратора для пост-обученной модели, исправляя два типа ошибок.
Авторы работы выявили, что ошибки калибровки возникают из-за двух явлений: «дрейфа уверенности», когда итоговая уверенность модели завышается, и «дрейфа процесса», когда меняются внутренние пути принятия решений. Dual-Align одновременно выравнивает итоговую уверенность и внутренние процессы модели, используя всего один параметр — температуру.
Проблема излишней уверенности у дообученных моделей критична для их практического применения, особенно в областях, где важна надёжность ответов. Существующие методы калибровки часто сосредотачивались только на итоговых распределениях, игнорируя изменения во внутренней динамике модели.
Эксперименты показали, что предложенный метод последовательно улучшает калибровку по сравнению с базовыми подходами, снижая ошибки и приближаясь к качеству контролируемых методов, при этом не снижая полезность модели после дообучения.