Исследователь Ичжоу Чжан представил на arXiv работу, предлагающую новую теоретическую основу для объяснения законов масштабирования нейронных сетей и феномена двойного спуска. В основе теории лежит анализ градиентного спуска в пространстве функций и введение концепции ренормализуемой динамики спектральных оболочек.
Ключевая идея заключается в том, что эволюцию ошибки обучения можно описать через зависящий от времени самосопряжённый оператор, порождённый якобианом сети. Используя теорию возмущений Като, авторы получили точную систему связанных обыкновенных дифференциальных уравнений. Для выделения макроскопического поведения была введена логарифмическая спектральная оболочка, что позволило отслеживать энергию квадратичной ошибки.
Микроскопические взаимодействия внутри каждой оболочки сокращаются на уровне энергии, поэтому эволюция энергии оболочек определяется только диссипацией и внешними межоболочечными взаимодействиями. В предположении степенного закона для спектрального переноса, динамика оболочек допускает самоподобное решение с движущейся границей разрешения и явными показателями масштабирования.
Предложенная теория объединяет два режима обучения — «ленивый» (близкий к NTK) и режим обучения признакам — как два предела одной и той же спектрально-оболочечной динамики. Это даёт единое объяснение для наблюдаемых эмпирических закономерностей, таких как степенные законы масштабирования производительности от размера модели и данных, а также нестандартного поведения кривой обучения при двойном спуске.