Группа исследователей из китайских и американских университетов представила работу «Проклятие глубины в больших языковых моделях», принятую на конференции NeurIPS 2025. Они выявили, что в популярных семействах моделей, таких как Llama, Mistral, DeepSeek и Qwen, почти половина глубоких слоёв вносят минимальный вклад в обучение из-за архитектурной проблемы.
Анализ показал, что корень проблемы — широко используемая техника Pre-Layer Normalization (Pre-LN). Хотя она стабилизирует обучение трансформеров, её выходная дисперсия экспоненциально растёт с глубиной модели. Это приводит к тому, что градиенты в глубоких блоках становятся близки к единичной матрице, и эти слои почти не обучаются.
Для решения проблемы авторы предложили простую модификацию — LayerNorm Scaling (LNS). Метод масштабирует дисперсию на выходе нормализации слоя обратно пропорционально квадратному корню от глубины. Это подавляет взрыв дисперсии и позволяет глубоким слоям эффективно участвовать в обучении.
Эксперименты на моделях от 130 млн до 7 млрд параметров подтвердили, что LNS стабильно превосходит предыдущие методы нормализации и масштабирования как на этапе предобучения, так и при тонкой настройке. Код метода и результаты исследований опубликованы в открытом доступе.