Apple представила универсальную мультимодальную модель Manzano - AI Founder

Apple представила универсальную мультимодальную модель Manzano

Apple представила универсальную мультимодальную модель Manzano

Исследователи Apple представили модель Manzano — универсальную мультимодальную систему, которая одновременно понимает и генерирует визуальный контент, решая проблему компромисса между этими задачами.

Исследователи Apple Machine Learning Research представили модель Manzano — простую и масштабируемую унифицированную мультимодальную архитектуру. Модель способна как понимать изображения (image-to-text), так и генерировать их по текстовому описанию (text-to-image), показывая высочайшие результаты среди универсальных систем и конкурируя со специализированными моделями, особенно в работе с текстовыми изображениями.

Ключевым нововведением Manzano является гибридный визуальный токенизатор. Единый кодировщик изображений передает данные двум легковесным адаптерам: один создает непрерывные эмбеддинги для понимания контента, другой — дискретные токены для генерации. Эти представления находятся в общем семантическом пространстве. Единая авторегрессионная языковая модель предсказывает высокоуровневую семантику в виде текстовых и визуальных токенов, а вспомогательный диффузионный декодер преобразует токены изображений в пиксели.

Разработка решает фундаментальную проблему существующих открытых моделей — компромисс между качеством понимания и генерации визуального контента. Унифицированный рецепт обучения на данных для обеих задач позволяет масштабировать совместное обучение. Исследования показали минимальный конфликт между задачами и стабильный рост качества при увеличении размера модели, что подтверждает эффективность гибридного подхода.

Manzano демонстрирует, что создание единой архитектуры для понимания и создания мультимодального контента — достижимая цель. Это открывает путь к более простым и эффективным системам искусственного интеллекта, способным работать с миром так же целостно, как человек.

Мария Соколова
Автор: Мария Соколова

Журналист и аналитик с фокусом на AI-инструменты для стартапов. Пишу о том, как основатели компаний внедряют ИИ для автоматизации и роста выручки.

Подпишись на наш Telegram-канал

чтобы не упустить главные AI-новости

Подписаться
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x