Я доверил браузеру купить товары и написать письма
Я позволил искусственному интеллекту в браузере делать за меня покупки и переписку. Результат оказался неожиданным.
Я позволил искусственному интеллекту в браузере делать за меня покупки и переписку. Результат оказался неожиданным.
Специалисты закончили масштабное тестирование. Они проверили, как программы защищают от вирусов и хакеров. Результаты удивили даже опытных аналитиков.
Мы дали ИИ-агенту Chrome задание серфить в интернете. Он справился с простыми задачами, но провалил сложные. Вот подробности нашего эксперимента.
Команда из пяти инженеров Salesforce представила eVerse. Это генератор тестовых данных для CRM-систем. Работа заняла одиннадцать минут.
Я скачал программу, которая обещала заменить Claude Code. Она работала на моём ноутбуке. И не просила ни копейки.
Результаты масштабного тестирования обнародовали сегодня. Три чат-бота оказались на голову выше остальных.
Разработчик Simon Willison выпустил две версии инструмента llm-echo за один день. Основное обновление 0.4 добавляет подсчёт токенов в ответах промптов. Это критически важно для анализа затрат и производительности языковых моделей.
Включил локальную нейросеть на своём Mac. Ждал чуда. Получил суровый урок.
Программисты часто жалуются на качество тестов от ИИ. Саймон Уиллисон нашёл несколько простых решений.
Искусственный интеллект для офиса оказался не таким умным. Новый тест развеял иллюзии о его готовности.
Компания Anthropic постоянно переписывает свои технические тесты. Искусственный интеллект Claude слишком быстро их осваивает.
Исследователи IBM представили новый тест для ИИ-агентов. Он проверяет их работу на реальном заводском оборудовании.
Я задал шести популярным нейросетям одинаковые вопросы с подвохом. Каждая из них ошиблась. Каждая придумала свой ответ.
Я дал новому ИИ Claude Cowork доступ ко всем своим документам. Он прочитал всё за минуты. Его выводы были точными и неожиданными.
Исследователи адаптировали алгоритм Go-Explore для комплексного тестирования безопасности LLM-агентов с инструментами, выявив ключевые факторы эффективности и ошибки.