Архивы тестирование - AI Founder

Я доверил браузеру купить товары и написать письма

Я доверил браузеру купить товары и написать письма

Я позволил искусственному интеллекту в браузере делать за меня покупки и переписку. Результат оказался неожиданным.

Эксперты выбрали лучшую защиту для компьютеров в 2026 году

Эксперты выбрали лучшую защиту для компьютеров в 2026 году

Специалисты закончили масштабное тестирование. Они проверили, как программы защищают от вирусов и хакеров. Результаты удивили даже опытных аналитиков.

Мы заставили ИИ-агента Chrome серфить в интернете. Вот что вышло

Мы заставили ИИ-агента Chrome серфить в интернете. Вот что вышло

Мы дали ИИ-агенту Chrome задание серфить в интернете. Он справился с простыми задачами, но провалил сложные. Вот подробности нашего эксперимента.

Salesforce представила генератор тестовых данных для CRM

Salesforce представила генератор тестовых данных для CRM

Команда из пяти инженеров Salesforce представила eVerse. Это генератор тестовых данных для CRM-систем. Работа заняла одиннадцать минут.

Я протестировал бесплатного соперника Claude Code

Я протестировал бесплатного соперника Claude Code

Я скачал программу, которая обещала заменить Claude Code. Она работала на моём ноутбуке. И не просила ни копейки.

Эксперты выбрали лучших ИИ-собеседников 2026 года

Эксперты выбрали лучших ИИ-собеседников 2026 года

Результаты масштабного тестирования обнародовали сегодня. Три чат-бота оказались на голову выше остальных.

Выпущен llm-echo 0.4 с подсчётом токенов для промптов

Выпущен llm-echo 0.4 с подсчётом токенов для промптов

Разработчик Simon Willison выпустил две версии инструмента llm-echo за один день. Основное обновление 0.4 добавляет подсчёт токенов в ответах промптов. Это критически важно для анализа затрат и производительности языковых моделей.

Я запустил локальный ИИ на Mac. Обещали магию, получил отрезвление.

Я запустил локальный ИИ на Mac. Обещали магию, получил отрезвление.

Включил локальную нейросеть на своём Mac. Ждал чуда. Получил суровый урок.

Как заставить ИИ-агентов писать хорошие тесты на Python

Как заставить ИИ-агентов писать хорошие тесты на Python

Программисты часто жалуются на качество тестов от ИИ. Саймон Уиллисон нашёл несколько простых решений.

ИИ-агенты провалили тест на работу в офисе

ИИ-агенты провалили тест на работу в офисе

Искусственный интеллект для офиса оказался не таким умным. Новый тест развеял иллюзии о его готовности.

Anthropic постоянно меняет тесты для Клода

Anthropic постоянно меняет тесты для Клода

Компания Anthropic постоянно переписывает свои технические тесты. Искусственный интеллект Claude слишком быстро их осваивает.

IBM представила тест для ИИ-агентов в промышленности

IBM представила тест для ИИ-агентов в промышленности

Исследователи IBM представили новый тест для ИИ-агентов. Он проверяет их работу на реальном заводском оборудовании.

Шесть популярных ИИ провалили тест на простые вопросы

Шесть популярных ИИ провалили тест на простые вопросы

Я задал шести популярным нейросетям одинаковые вопросы с подвохом. Каждая из них ошиблась. Каждая придумала свой ответ.

Я запустил Claude Cowork в своих файлах. Результат поразил и напугал

Я запустил Claude Cowork в своих файлах. Результат поразил и напугал

Я дал новому ИИ Claude Cowork доступ ко всем своим документам. Он прочитал всё за минуты. Его выводы были точными и неожиданными.

Исследование: Go-Explore для тестирования безопасности ИИ-агентов

Исследователи адаптировали алгоритм Go-Explore для комплексного тестирования безопасности LLM-агентов с инструментами, выявив ключевые факторы эффективности и ошибки.