Градиенты в глубоком обучении предсказуемы и низкоранговы - AI Founder

Градиенты в глубоком обучении предсказуемы и низкоранговы

Градиенты в глубоком обучении предсказуемы и низкоранговы

Учёные формализовали концепцию предсказуемых многообразий градиентов, показав, что их эволюция во время обучения нейросетей имеет низкую временную сложность.

Исследователь Анхерутова Кальво представил работу, в которой формализует наблюдаемую на практике предсказуемость градиентов при обучении глубоких нейронных сетей. Вместо анализа в наихудшем случае, работа предлагает измеримую структуру, основанную на временной длине пути и предсказуемом ранге градиентов.

Ключевыми введёнными метриками являются длина пути на основе предсказания, измеряющая, насколько хорошо будущие градиенты можно спрогнозировать из прошлых данных, и предсказуемый ранг, который количественно определяет внутреннюю временную размерность приращений градиента. Эти величины являются вычислимыми и позволяют переформулировать классические гарантии сходимости в оптимизации, сделав их зависимыми от наблюдаемой сложности процесса, а не от теоретических верхних границ.

Эксперименты на свёрточных сетях, трансформерах для компьютерного зрения, языковых моделях и синтетических задачах показали, что траектории градиентов действительно локально предсказуемы и демонстрируют сильную низкоранговую структуру во времени. Эти свойства стабильны для разных архитектур и оптимизаторов. Диагностировать их можно напрямую по журналам градиентов с помощью лёгких случайных проекций.

Результаты предлагают новую объединяющую оптику для понимания динамики оптимизации в современном глубоком обучении. Стандартный процесс обучения можно рассматривать как работу в режиме низкой временной сложности. Это открывает направления для создания адаптивных оптимизаторов, методов отслеживания с учётом ранга и алгоритмов, основанных на предсказании, которые будут опираться на измеримые свойства реальных прогонов обучения.

Дмитрий Волков
Автор: Дмитрий Волков

Продакт-менеджер. Пишу о том, как ИИ меняет подходы к развитию продуктов и масштабированию стартапов.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x