SpatialBench: ИИ-агенты плохо анализируют биологические данные - AI Founder

SpatialBench: ИИ-агенты плохо анализируют биологические данные

Исследователи представили бенчмарк SpatialBench, чтобы проверить, могут ли современные ИИ-агенты извлекать биологические знания из сложных пространственных данных. Результаты первых тестов оказались низкими.

Группа учёных представила бенчмарк SpatialBench для оценки способности передовых ИИ-агентов анализировать реальные пространственные биологические данные. Результаты тестирования показали, что точность базовых моделей остаётся низкой — от 20% до 38% в зависимости от семейства моделей. Работа была опубликована на arXiv 26 декабря 2025 года.

SpatialBench содержит 146 проверяемых задач, основанных на практических рабочих процессах анализа пространственных данных. Задачи охватывают пять технологий пространственной биологии и семь категорий. Каждая проблема включает снимок экспериментальных данных и детерминированный оценщик, проверяющий восстановление ключевого биологического результата. Исследование выявило сильную зависимость производительности от конкретной задачи и технологической платформы.

Пространственная транскриптомика — быстро развивающаяся область, где объём и сложность данных делают вычислительный анализ узким местом для биологических открытий. Несмотря на прогресс ИИ-агентов в разработке ПО и общем анализе данных, их способность работать с «грязными» реальными наборами данных оставалась под вопросом. Новый бенчмарк призван стать инструментом измерения и диагностики для создания агентов, которые могут достоверно и воспроизводимо взаимодействовать с такими данными.

Авторы подчеркивают, что архитектура агента — инструменты, промпты, управление потоком и среда выполнения — оказывает существенное влияние на производительность. Эти компоненты требуют оценки и улучшения как объекты первого класса. SpatialBench позволяет не только измерять текущие возможности, но и целенаправленно развивать ИИ для решения сложных задач в биологии и медицине.

Елена Петрова
Автор: Елена Петрова

Продуктовый дизайнер с фокусом на AI-инструментах. Тестирует и сравнивает нейросети для креативных профессий.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x