Группа исследователей под руководством Синьмина Вэя представила статью на arXiv, в которой описывается система Agent.xpu — первый планировщик задач для LLM-агентов, оптимизированный для работы на гетерогенных мобильных системах на кристалле (SoC). Система позволяет одновременно и эффективно выполнять реактивные и проактивные задачи больших языковых моделей на процессорах, содержащих CPU, встроенный GPU и нейропроцессор (NPU).
Ключевая проблема, которую решает Agent.xpu, — несоответствие между динамичным характером работы персональных LLM-агентов и статичными механизмами существующих движков для вывода. Агенты сочетают фоновый мониторинг и мгновенную реакцию на запросы, что требует сложного планирования. Новая система использует три основные техники: гетерогенный граф выполнения для оптимального распределения операторов между NPU и GPU, координацию между ускорителями с разделением этапов предварительного заполнения и декодирования, а также механизм прерывания с гарантией отзывчивости для реактивных задач.
Разработка критически важна для развития локального ИИ на устройствах, таких как смартфоны и ноутбуки. Современные SoC от Qualcomm, MediaTek, Apple и других содержат несколько типов ускорителей, но существующее ПО не умеет эффективно распределять между ними долгоживущие и смешанные по приоритету задачи агентов. Это ограничивает возможности персональных помощников, работающих полностью на устройстве без облака.
По результатам тестов, Agent.xpu демонстрирует увеличение пропускной способности для фоновых (проактивных) задач в 1,2–4,9 раза по сравнению с лучшими существующими методами. Задержка при выполнении реактивных задач сокращается как минимум на 91%. Кроме того, система снижает общее энергопотребление и минимизирует влияние на графические операции за счёт контролируемого использования GPU.