Международная группа учёных из Университета Цинхуа, Пекинского института общего искусственного интеллекта и Университета Пенсильвании представила систему Absolute Zero Reasoner. Она позволяет языковым моделям учиться без участия человека, самостоятельно генерируя и решая задачи по программированию на Python. Результаты показали, что этот метод значительно улучшил навыки кодирования и логического рассуждения у моделей Qwen с 7 и 14 миллиардами параметров.
Система работает в три этапа. Сначала языковая модель создаёт сложные, но решаемые задачи по программированию. Затем та же модель пытается найти для них решение. На финальном этапе система проверяет код, запуская его, и использует успехи и неудачи для улучшения исходной модели. Это позволяет модели лучше формулировать задачи и эффективнее их решать.
Этот подход, известный как «самоигра», имитирует человеческое обучение, выходящее за рамки простого подражания. Ключевая особенность — сложность задач растёт по мере улучшения возможностей модели. Пока метод применим только к задачам с чёткой проверкой результата, таким как программирование или математика. В будущем его могут адаптировать для агентных задач, например, для навигации в интернете.
Исследователи считают, что подобные методы могут стать шагом к созданию сверхразума, так как позволяют ИИ выйти за пределы знаний, заложенных человеком. Аналогичные разработки уже ведутся в других лабораториях, включая проекты Agent0 от Salesforce и систему для программной инженерии от Meta, что указывает на растущий тренд в индустрии.