Apple представила DeepMMSearch-R1. Это первая мультимодальная модель для поиска в сети. Она работает с текстом и изображениями.
Модель умеет обрезать картинку. Она ищет в интернете по её фрагменту. Это делает поиск точнее.
Старые методы были негибкими. Они делали много лишних запросов. Результаты получались плохими.
Новая модель учится на ходу. Она меняет запросы после неудачи. Это похоже на саморефлексию.
Обучение шло в два этапа. Сначала — тонкая настройка. Потом — оптимизация методом проб и ошибок.
Для обучения собрали новый датасет DeepMMSearchVQA. В нём сложные вопросы. Они требуют поиска в сети.
Модель учится выбирать инструмент. Она решает, искать картинку или текст. Потом анализирует найденное.
Эксперименты показали превосходство метода. Тесты прошли на сложных бенчмарках. Результаты обнадёживают.
Работу выполнили в Университете Джонса Хопкинса. Исследование опубликовано в январе 2026 года. Это только начало.