Исследователи DeepSeek представили метод mHC (Manifold Constrained Hyper Connections), который устраняет нестабильность в обучении больших языковых моделей с гиперсвязями. Решение основано на алгоритме Синкхорна-Кноппа 1967 года для нормализации матриц.
Гиперсвязи расширяют классические остаточные связи, используя несколько потоков данных вместо одного. Это повышает выразительность модели без значительного роста вычислительных затрат. Однако при масштабировании возникала нестабильность: усиление сигналов достигало 3000 раз от идеального значения.
Новый метод ограничивает матрицы смешивания гиперсвязей многообразием дважды стохастических матриц. Алгоритм 1967 года нормализует строки и столбцы, сохраняя сумму элементов. Это предотвращает взрывной рост сигналов и градиентов при обучении глубоких сетей.
В модели на 27 миллиардов параметров mHC снизил максимальное усиление сигналов с 3000 до 1,6. Стабилизация достигнута математическим ограничением, а не эмпирическими настройками. Метод сохраняет преимущества гиперсвязей, устраняя их главный недостаток.