Исследователи Amazon Science представили SharpZO — гибридный метод оптимизации для тонкой настройки визуально-языковых моделей (VLM) на устройствах с ограниченными ресурсами. Метод использует только прямое распространение, без обратного, что снижает требования к памяти и вычислениям. SharpZO показал на 7% более высокую точность по сравнению с существующими техниками на основе нулевого порядка. Работа была представлена на конференции NeurIPS 2025.
SharpZO использует двухэтапный процесс. На первом этапе глобального исследования применяется эволюционная стратегия CMA-ES для сглаживания ландшафта функции потерь и создания сильной начальной точки. На втором этапе локального поиска используется модифицированный алгоритм нулевого порядка для подавления выбросов в оценках градиента. Это позволяет избежать застревания в локальных минимумах.
Стандартная тонкая настройка моделей с помощью обратного распространения требует больших вычислительных ресурсов и непрактична для периферийных устройств. Альтернативные методы на основе нулевого порядка имеют высокую дисперсию, что приводит к шумным и нестабильным оценкам градиента, ухудшая точность и сходимость. SharpZO решает эту проблему, комбинируя преимущества двух подходов.
Новый метод открывает возможности для адаптации мощных визуально-языковых моделей под конкретные задачи непосредственно на конечных устройствах, таких как смартфоны, камеры или IoT-датчики, без необходимости передачи данных в облако.