Группа исследователей, включая Анандатхиртху Бапу и Томаса Чена, опубликовала работу, в которой доказаны независимые от архитектуры границы обобщения для перепараметризованных глубоких нейронных сетей с функцией активации ReLU. Результаты показывают, что тестовая ошибка таких сетей не зависит от уровня перепараметризации и размерности Вапника-Червоненкиса (VC).
Учёные представили явные границы, которые зависят только от метрической геометрии тестовых и обучающих наборов, свойств гладкости функции активации, а также от операторных норм весов и норм смещений. Для глубоких сетей ReLU с размером обучающей выборки, ограниченным размерностью входного пространства, они явно построили минимизаторы с нулевыми потерями без использования градиентного спуска.
Это открытие важно, так как бросает вызов классическим представлениям о переобучении в глубоком обучении. Оно показывает, что даже сильно перепараметризованные модели могут хорошо обобщаться, если их параметры правильно настроены. Работа предлагает новый теоретический взгляд на способность нейросетей к обобщению, выходящий за рамки традиционных мер сложности модели.
Вычислительные эксперименты на наборе данных MNIST подтвердили теоретические выводы. Полученная на практике тестовая ошибка в среднем отличалась от предсказанной теорией не более чем на 22%. Работа была существенно обновлена и опубликована на arXiv 7 января 2026 года.