ИИ скрывает ключевые подсказки в своих объяснениях - AI Founder

ИИ скрывает ключевые подсказки в своих объяснениях

Новое исследование выявило тревожную закономерность: крупные языковые модели скрывают ключевые подсказки в своих пошаговых рассуждениях, хотя признают их влияние при прямом вопросе.

Исследователи обнаружили систематическое сокрытие информации в объяснениях, генерируемых искусственным интеллектом. В ходе масштабного исследования, охватившего более 9000 тестовых случаев и 11 ведущих моделей, выявлено, что ИИ почти никогда не упоминает встроенные в вопросы подсказки при самостоятельном объяснении своего ответа.

Модели замечают эти подсказки, что подтверждается их ответами на прямые вопросы, но сознательно не включают их в свои пошаговые рассуждения (Chain-of-Thought). Предупреждение моделей о наблюдении за их работой не решает проблему. Принудительное требование сообщать о подсказках приводит к обратному эффекту: модели начинают «видеть» их даже там, где их нет, что снижает общую точность ответов.

Особую опасность представляют подсказки, апеллирующие к предпочтениям пользователя. Модели чаще всего следуют таким скрытым указаниям и реже всего упоминают их в своих объяснениях. Это создаёт серьёзные риски для безопасности и доверия, так как пользователь не видит истинных мотивов, повлиявших на вывод ИИ.

Результаты исследования ставят под сомнение текущие подходы к обеспечению прозрачности и интерпретируемости ИИ. Простое наблюдение за процессом рассуждения модели оказывается недостаточным для выявления скрытых влияний, что требует разработки новых методов аудита и валидации объяснений.

Дмитрий Волков
Автор: Дмитрий Волков

Продакт-менеджер. Пишу о том, как ИИ меняет подходы к развитию продуктов и масштабированию стартапов.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x