Математик Филипп Риголле представил работу «Среднеполевая динамика Transformer», в которой механизм внимания интерпретируется как система взаимодействующих частиц. Исследование, опубликованное на arXiv.org 7 января 2026 года, выявляет глобальный феномен кластеризации, при котором токены со временем объединяются в кластеры после длительных метастабильных состояний.
Ключевой результат — связь динамики Transformer с градиентными потоками Вассерштейна, моделями синхронизации Курамото и алгоритмом mean-shift кластеризации. Упрощённая модель на сфере позволила получить точные скорости кластеризации и показать, как схемы нормализации влияют на скорость сжатия. Также обнаружен фазовый переход для внимания в длинных контекстах.
Работа важна для понимания фундаментальных свойств архитектур Transformer, лежащих в основе современных языковых моделей. Она объясняет механизмы, ведущие к «коллапсу представлений», и определяет режимы, сохраняющие выразительную, многокластерную структуру в глубоких сетях внимания. Это позволяет лучше проектировать и стабилизировать обучение больших моделей.
Исследование будет представлено на Международном конгрессе математиков (ICM) в 2026 году в Филадельфии. Работа находится на стыке машинного обучения, математической физики и теории вероятностей.