Исследователь Рон Ф. Дель Росарио представил открытую методологию для обучения языковых моделей обнаружению атак в мультиагентных ИИ-воркфлоуах. Работа опубликована на arXiv 29 декабря 2025 года. Метод использует анализ трасс OpenTelemetry и показал рост точности с 42,86% до 74,29% после трёх итераций обучения.
Для обучения использовали датасет из 80 851 примера из 18 публичных источников по кибербезопасности и 35 026 синтетических трасс OpenTelemetry. Обучение проводили методом QLoRA на оборудовании NVIDIA DGX Spark. Ключевые вклады включают методологию генерации синтетических трасс для атак на координацию агентов и нарушений регуляторных требований.
Работа важна, так как мультиагентные системы становятся сложнее и уязвимее для скоординированных атак. Предложенный фреймворк позволяет практикам создавать кастомные модели безопасности, адаптированные под их угрозы. Это первый воспроизводимый фреймворк такого рода.
Все материалы — датасеты, скрипты обучения и бенчмарки — выложены в открытый доступ на HuggingFace. Автор отмечает, что для практического развёртывания необходим человеческий надзор из-за ложных срабатываний.