Исследователи из Нанкинского университета представили LaViRA — новый подход к навигации роботов по языковым инструкциям без предварительного обучения. Система разбивает сложную задачу на три последовательных этапа: Language Action для планирования высокого уровня, Vision Action для визуального поиска цели и Robot Action для физического движения. На стандартном бенчмарке VLN-CE метод показал 38.3% точности — это на 7.3 процентных пункта лучше предыдущего лидера.
Главная идея заключается в использовании разных масштабов мультимодальных языковых моделей для каждого этапа. Для стратегического планирования применяется мощная модель вроде GPT-4o или Gemini-2.5-Pro, которая анализирует инструкцию, текущее окружение и историю движений. Она выбирает общее направление: двигаться вперед, влево, вправо, назад, вернуться к предыдущей точке или остановиться. Представьте GPS-навигатор, который сначала прокладывает маршрут по крупным дорогам.
На втором этапе более компактная модель Qwen2.5-VL-32B получает изображение в выбранном направлении и находит конкретный объект для движения — дверь, коридор или лестницу. Модель выдает координаты ограничивающего прямоугольника и описание цели. Это похоже на то, как навигатор уточняет: «поверните к красному зданию с белыми окнами». Финальный этап использует простой алгоритм Fast Marching Method для построения пути и обхода препятствий.
Эксперименты показали важность правильного распределения ролей между моделями. Когда для обоих этапов использовали мощную GPT-4o, производительность упала с 28.3% до 16.8% по метрике SPL. Система без высокоуровневого планировщика достигла лишь 4.4% SPL, а полностью сквозной подход вообще провалился с 0% результатом. Стоимость одного эпизода навигации составляет примерно $0.084 при использовании API GPT-4o + Qwen2.5-VL-32B.
LaViRA успешно протестировали на реальных роботах — четвероногом Unitree Go1 и колесной платформе Agilex Cobot Magic. Благодаря модульной архитектуре потребовалось заменить только низкоуровневый контроллер движения, в то время как модули рассуждения и визуального поиска работали без изменений. Это подтверждает практическую применимость подхода для различных типов роботов в реальных условиях.
Источник новости и обложки: arxiv.org