Исследователи нашли причину неэффективности глубоких слоёв в LLM - AI Founder

Исследователи нашли причину неэффективности глубоких слоёв в LLM

Исследователи из Китая и США выявили системную проблему «Проклятие глубины» в современных больших языковых моделях, из-за которой почти половина слоёв работает неэффективно.

Группа исследователей из китайских и американских университетов представила работу «Проклятие глубины в больших языковых моделях», принятую на конференции NeurIPS 2025. Они выявили, что в популярных семействах моделей, таких как Llama, Mistral, DeepSeek и Qwen, почти половина глубоких слоёв вносят минимальный вклад в обучение из-за архитектурной проблемы.

Анализ показал, что корень проблемы — широко используемая техника Pre-Layer Normalization (Pre-LN). Хотя она стабилизирует обучение трансформеров, её выходная дисперсия экспоненциально растёт с глубиной модели. Это приводит к тому, что градиенты в глубоких блоках становятся близки к единичной матрице, и эти слои почти не обучаются.

Для решения проблемы авторы предложили простую модификацию — LayerNorm Scaling (LNS). Метод масштабирует дисперсию на выходе нормализации слоя обратно пропорционально квадратному корню от глубины. Это подавляет взрыв дисперсии и позволяет глубоким слоям эффективно участвовать в обучении.

Эксперименты на моделях от 130 млн до 7 млрд параметров подтвердили, что LNS стабильно превосходит предыдущие методы нормализации и масштабирования как на этапе предобучения, так и при тонкой настройке. Код метода и результаты исследований опубликованы в открытом доступе.

Мария Соколова
Автор: Мария Соколова

Журналист и аналитик с фокусом на AI-инструменты для стартапов. Пишу о том, как основатели компаний внедряют ИИ для автоматизации и роста выручки.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x