Исследователи Ян Хансен-Палмус, Майкл Чыонг Ле, Оливер Хаусдёрфер и Алок Верма представили метод сжатия коммуникации для ускорения вывода больших языковых модеей (LLM) при использовании тензорного параллелизма. Их подход, описанный в статье на arXiv, позволяет сократить время до первого токена (TTFT) до 2 раз с минимальной деградацией качества модели.
Ключевая идея метода — применение детализированных методов квантования для сжатия выбранных активаций, передаваемых между аппаратными ускорителями. Это позволяет уменьшить объём передаваемых данных в 3.5–4.5 раза. Сжатие применяется именно к тем данным, обмен которыми является узким местом при тензорно-параллельном выводе.
Ускорение вывода LLM критически важно для их практического применения в реальном времени, например, в чат-ботах или интерактивных помощниках. Тензорный параллелизм — распространённая стратегия распределения вычислений модели по нескольким GPU или TPU, но накладные расходы на коммуникацию между устройствами часто ограничивают итоговую скорость. Предложенный метод напрямую атакует эту проблему.
Работа демонстрирует, что оптимизация коммуникационных процессов, а не только вычислительных, открывает значительный потенциал для ускорения работы современных ИИ-систем. Метод может быть интегрирован в существующие фреймворки для развёртывания LLM.