DeepSeek стабилизировала гиперсвязи в ИИ с помощью алгоритма 1967 года - AI Founder

DeepSeek стабилизировала гиперсвязи в ИИ с помощью алгоритма 1967 года

Команда DeepSeek решила проблему нестабильности при обучении глубоких нейросетей, применив классический алгоритм нормализации матриц 1967 года к современным гиперсвязям.

Исследователи DeepSeek представили метод mHC (Manifold Constrained Hyper Connections), который устраняет нестабильность в обучении больших языковых моделей с гиперсвязями. Решение основано на алгоритме Синкхорна-Кноппа 1967 года для нормализации матриц.

Гиперсвязи расширяют классические остаточные связи, используя несколько потоков данных вместо одного. Это повышает выразительность модели без значительного роста вычислительных затрат. Однако при масштабировании возникала нестабильность: усиление сигналов достигало 3000 раз от идеального значения.

Новый метод ограничивает матрицы смешивания гиперсвязей многообразием дважды стохастических матриц. Алгоритм 1967 года нормализует строки и столбцы, сохраняя сумму элементов. Это предотвращает взрывной рост сигналов и градиентов при обучении глубоких сетей.

В модели на 27 миллиардов параметров mHC снизил максимальное усиление сигналов с 3000 до 1,6. Стабилизация достигнута математическим ограничением, а не эмпирическими настройками. Метод сохраняет преимущества гиперсвязей, устраняя их главный недостаток.

Дмитрий Волков
Автор: Дмитрий Волков

Продакт-менеджер. Пишу о том, как ИИ меняет подходы к развитию продуктов и масштабированию стартапов.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x