Компания NVIDIA представила две новые модели Llama Nemotron для мультимодального поиска по визуальным документам: llama-nemotron-embed-vl-1b-v2 для создания векторных представлений и llama-nemotron-rerank-vl-1b-v2 для переранжирования результатов. Модели показали высокую точность на пяти наборах данных для поиска по документам.
Модель llama-nemotron-embed-vl-1b-v2 создаёт единое векторное представление для страницы документа, объединяя текстовую и визуальную информацию. Это обеспечивает совместимость со стандартными векторными базами данных и низкую задержку при поиске. Вторая модель, llama-nemotron-rerank-vl-1b-v2, оценивает релевантность найденных страниц запросу для улучшения качества ответов.
Новые модели решают проблему текстовых поисковых систем, которые игнорируют информацию в графиках, таблицах и схемах внутри документов. Мультимодальные RAG-пайплайны позволяют находить и анализировать данные из всех частей документа, что снижает риск ошибок и «галлюцинаций» у больших языковых моделей при генерации ответов.
Разработчики подчёркивают, что модели имеют небольшой размер и могут работать на большинстве GPU от NVIDIA, что делает их доступными для внедрения в коммерческих приложениях для обработки документов.