Исследователи Apple Machine Learning Research представили модель Manzano — простую и масштабируемую унифицированную мультимодальную архитектуру. Модель способна как понимать изображения (image-to-text), так и генерировать их по текстовому описанию (text-to-image), показывая высочайшие результаты среди универсальных систем и конкурируя со специализированными моделями, особенно в работе с текстовыми изображениями.
Ключевым нововведением Manzano является гибридный визуальный токенизатор. Единый кодировщик изображений передает данные двум легковесным адаптерам: один создает непрерывные эмбеддинги для понимания контента, другой — дискретные токены для генерации. Эти представления находятся в общем семантическом пространстве. Единая авторегрессионная языковая модель предсказывает высокоуровневую семантику в виде текстовых и визуальных токенов, а вспомогательный диффузионный декодер преобразует токены изображений в пиксели.
Разработка решает фундаментальную проблему существующих открытых моделей — компромисс между качеством понимания и генерации визуального контента. Унифицированный рецепт обучения на данных для обеих задач позволяет масштабировать совместное обучение. Исследования показали минимальный конфликт между задачами и стабильный рост качества при увеличении размера модели, что подтверждает эффективность гибридного подхода.
Manzano демонстрирует, что создание единой архитектуры для понимания и создания мультимодального контента — достижимая цель. Это открывает путь к более простым и эффективным системам искусственного интеллекта, способным работать с миром так же целостно, как человек.