Исследователи изучили проблему оценки ИИ. Большие модели часто судят другие алгоритмы. Их решения могут быть неверными.
Учёные сравнили два подхода к исправлению ошибок. Первый метод корректирует системные неточности. Второй использует небольшой набор человеческих оценок.
Авторы объединили оба подхода в единую теорию. Они вывели эффективные формулы для расчётов. Это повышает точность итоговых баллов.
Теорию проверили на симуляциях и реальных данных. Результаты подтвердили преимущества нового метода. Код для проверки опубликовали в открытом доступе.