Группа исследователей, включая Маниша Бхатта, представила крупное эмпирическое исследование по адаптации алгоритма Go-Explore для тестирования безопасности (Red Team) LLM-агентов, способных использовать инструменты. Работа, опубликованная на arXiv.org 6 января 2026 года, оценивала модель GPT-4o-mini в 28 экспериментальных прогонах, охватывающих шесть исследовательских вопросов.
Ключевой вывод: вариативность, вызванная случайным начальным числом (seed), оказалась доминирующим фактором, создавая восьмикратный разброс в результатах. Это делает сравнения на основе одного сида ненадежными, в то время как усреднение по множеству сидов существенно снижает дисперсию. Также выяснилось, что метод «reward shaping» последовательно ухудшает производительность, вызывая коллапс исследования в 94% запусков или производя ложные срабатывания.
Исследование критически важно для безопасности развернутых ИИ-агентов, которые, несмотря на обучение безопасности, требуют тщательного тестирования на уязвимости. Авторы подчеркивают, что для всестороннего тестирования безопасности ансамбли агентов обеспечивают разнообразие типов атак, тогда как одиночные агенты оптимизируют покрытие внутри конкретного типа атаки.
Общий итог работы: при тестировании безопасных моделей дисперсия сидов и целевые доменные знания могут перевесить алгоритмическую сложность. Простые сигнатуры состояния в данной среде показали себя лучше сложных.