Исследователь Тиберью Мусат опубликовал работу на arXiv. Он объяснил феномен «гроккинга» в машинном обучении.
Нейросеть сначала заучивает тренировочные данные. Потом, после долгой паузы, происходит обобщение.
Учёный связал это с минимизацией нормы весов. Процесс идёт на так называемом многообразии нулевых потерь.
Доказательство работает для бесконечно малых скоростей обучения. Эксперименты подтвердили теорию на двухслойной сети.
Модель точно воспроизвела задержку обобщения. Это ключ к управлению обучением нейросетей.