Maestro — новая VLM-управляемая агентная архитектуру, которая использует разнообразные робототехнические модули для универсальной манипуляции роботов
В maestro агент на базе VLM динамически компонует модули в программную политику для текущей задачи и сценария. Для восприятия используется подход «от грубого к точному»: от простых сенсорных данных до точных ключевых точек. В систему встроены инструменты для пространственных рассуждений (измерение расстояний, работа с векторами), а для безопасности — планировщик движений без столкновений. Maestro оснащается двумя типами обученных зрительно-моторных моделей для управления: модель захвата и VLA.
Ключевое отличие от предыдущих подходов — замкнутый цикл «планирование-реакция-перепланирование», где VLM постоянно мониторит окружение и обновляет код в реальном времени на основе обратной связи. Команда провела разнообразные реальные эксперименты, чтобы продемонстрировать универсальность и робастность maestro, выделив ключевые проблемы для общих робототехнических стратегий и объединив 7 задач настольной манипуляции и 4 задачи мобильной манипуляции. Maestro показал особенно сильное превосходство в задачах, требующих семантического рассуждения, где модели VLA часто ошибаются при семантических изменениях от STAR-Gen, а также в задачах на память, где VLA-модели демонстрируют плохие результаты из-за отсутствия явного механизма памяти.
Источник новости и обложки: arxiv.org