Исследователи из Пекинского университета представили MM-Nav — мультивидовую VLA-модель (Vision-Language-Action), которая освоила навигацию роботов в сложных средах. Система использует 360-градусный обзор через четыре камеры и достигает 7 Гц скорости обработки. Главная особенность — обучение у трех специализированных RL-экспертов, каждый из которых отвечает за определенный навык навигации.
Команда создала три виртуальных среды для обучения отдельных навыков: reaching (достижение цели с расстояния до 30 метров), squeezing (проход через узкие щели) и avoiding (избежание динамических препятствий, движущихся со скоростью 0.5-1.5 м/с). Каждый RL-эксперт тренировался в Isaac Lab с 128 параллельными роботами на протяжении 8-12 часов на GPU NVIDIA RTX 4090. Это как если бы у вас было три тренера: один учит парковаться, другой — ездить по узким улочкам, третий — объезжать пешеходов.

(Слева): Разрыв в производительности g_Cap. между моделью VLA и экспертами RL.
(Справа): Различные доли данных, собранных нами онлайн. После четвертой итерации модель VLA превосходит всех экспертов (в WTT), что приводит к равному соотношению данных.
VLA-модель построена на базе Qwen2-7B языковой модели и визуального энкодера SigLIP. Система обрабатывает 8 кадров истории наблюдений и использует 192 визуальных токена для поддержания стабильной скорости работы. Обучение началось с 500 тысяч шагов от RL-экспертов и 100 тысяч данных визуальных вопросов-ответов, заняв 40 GPU-часов на восьми NVIDIA H100.
Ключевое нововведение — метод сбалансированной агрегации данных. Алгоритм автоматически определяет, какие навыки нужно подтянуть, и увеличивает долю соответствующих данных в обучающей выборке. Например, если модель плохо справляется с узкими проходами, система увеличит количество примеров от «squeezing-эксперта». В результате студент превзошел своих учителей — VLA-модель показала лучшие результаты, чем любой из отдельных RL-экспертов.
Тестирование в реальном мире подтвердило эффективность подхода. Робот Unitree GO2 успешно навигировал в четырех сложных сценариях: узкий зигзагообразный коридор, избежание тонких препятствий, динамическая среда и загроможденное статическое окружение. Особенно впечатляет способность избегать тонкие тканевые полосы, с которыми полностью не справляется встроенная LiDAR-система робота — это показывает, как визуальное восприятие может превосходить традиционные сенсоры в определенных задачах.
Источник новости и обложки: arxiv.org