Исследователь Анхерутова Кальво представил работу, в которой формализует наблюдаемую на практике предсказуемость градиентов при обучении глубоких нейронных сетей. Вместо анализа в наихудшем случае, работа предлагает измеримую структуру, основанную на временной длине пути и предсказуемом ранге градиентов.
Ключевыми введёнными метриками являются длина пути на основе предсказания, измеряющая, насколько хорошо будущие градиенты можно спрогнозировать из прошлых данных, и предсказуемый ранг, который количественно определяет внутреннюю временную размерность приращений градиента. Эти величины являются вычислимыми и позволяют переформулировать классические гарантии сходимости в оптимизации, сделав их зависимыми от наблюдаемой сложности процесса, а не от теоретических верхних границ.
Эксперименты на свёрточных сетях, трансформерах для компьютерного зрения, языковых моделях и синтетических задачах показали, что траектории градиентов действительно локально предсказуемы и демонстрируют сильную низкоранговую структуру во времени. Эти свойства стабильны для разных архитектур и оптимизаторов. Диагностировать их можно напрямую по журналам градиентов с помощью лёгких случайных проекций.
Результаты предлагают новую объединяющую оптику для понимания динамики оптимизации в современном глубоком обучении. Стандартный процесс обучения можно рассматривать как работу в режиме низкой временной сложности. Это открывает направления для создания адаптивных оптимизаторов, методов отслеживания с учётом ранга и алгоритмов, основанных на предсказании, которые будут опираться на измеримые свойства реальных прогонов обучения.