Представлен планировщик Agent.xpu для LLM-агентов на мобильных чипах - AI Founder

Представлен планировщик Agent.xpu для LLM-агентов на мобильных чипах

Представлен планировщик Agent.xpu для LLM-агентов на мобильных чипах

Группа учёных разработала систему Agent.xpu, которая впервые эффективно планирует задачи LLM-агентов на гетерогенных мобильных процессорах, содержащих CPU, GPU и NPU.

Группа исследователей под руководством Синьмина Вэя представила статью на arXiv, в которой описывается система Agent.xpu — первый планировщик задач для LLM-агентов, оптимизированный для работы на гетерогенных мобильных системах на кристалле (SoC). Система позволяет одновременно и эффективно выполнять реактивные и проактивные задачи больших языковых моделей на процессорах, содержащих CPU, встроенный GPU и нейропроцессор (NPU).

Ключевая проблема, которую решает Agent.xpu, — несоответствие между динамичным характером работы персональных LLM-агентов и статичными механизмами существующих движков для вывода. Агенты сочетают фоновый мониторинг и мгновенную реакцию на запросы, что требует сложного планирования. Новая система использует три основные техники: гетерогенный граф выполнения для оптимального распределения операторов между NPU и GPU, координацию между ускорителями с разделением этапов предварительного заполнения и декодирования, а также механизм прерывания с гарантией отзывчивости для реактивных задач.

Разработка критически важна для развития локального ИИ на устройствах, таких как смартфоны и ноутбуки. Современные SoC от Qualcomm, MediaTek, Apple и других содержат несколько типов ускорителей, но существующее ПО не умеет эффективно распределять между ними долгоживущие и смешанные по приоритету задачи агентов. Это ограничивает возможности персональных помощников, работающих полностью на устройстве без облака.

По результатам тестов, Agent.xpu демонстрирует увеличение пропускной способности для фоновых (проактивных) задач в 1,2–4,9 раза по сравнению с лучшими существующими методами. Задержка при выполнении реактивных задач сокращается как минимум на 91%. Кроме того, система снижает общее энергопотребление и минимизирует влияние на графические операции за счёт контролируемого использования GPU.

Александр Чернов
Автор: Александр Чернов

Редактор с бэкграундом в продуктовом менеджменте и разработке. Специализируется на материалах о применении ИИ в EdTech и B2B-сегменте.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x