MM-Nav: VLA-модель научилась навигации через обучение у трех RL-экспертов

Исследователи из Пекинского университета представили MM-Nav — мультивидовую VLA-модель (Vision-Language-Action), которая освоила навигацию роботов в сложных средах. Система использует 360-градусный обзор через четыре камеры и достигает 7 Гц скорости обработки. Главная особенность — обучение у трех специализированных RL-экспертов, каждый из которых отвечает за определенный навык навигации.

Команда создала три виртуальных среды для обучения отдельных навыков: reaching (достижение цели с расстояния до 30 метров), squeezing (проход через узкие щели) и avoiding (избежание динамических препятствий, движущихся со скоростью 0.5-1.5 м/с). Каждый RL-эксперт тренировался в Isaac Lab с 128 параллельными роботами на протяжении 8-12 часов на GPU NVIDIA RTX 4090. Это как если бы у вас было три тренера: один учит парковаться, другой — ездить по узким улочкам, третий — объезжать пешеходов.

VLA-модель построена на базе Qwen2-7B языковой модели и визуального энкодера SigLIP. Система обрабатывает 8 кадров истории наблюдений и использует 192 визуальных токена для поддержания стабильной скорости работы. Обучение началось с 500 тысяч шагов от RL-экспертов и 100 тысяч данных визуальных вопросов-ответов, заняв 40 GPU-часов на восьми NVIDIA H100.

Ключевое нововведение — метод сбалансированной агрегации данных. Алгоритм автоматически определяет, какие навыки нужно подтянуть, и увеличивает долю соответствующих данных в обучающей выборке. Например, если модель плохо справляется с узкими проходами, система увеличит количество примеров от «squeezing-эксперта». В результате студент превзошел своих учителей — VLA-модель показала лучшие результаты, чем любой из отдельных RL-экспертов.

Тестирование в реальном мире подтвердило эффективность подхода. Робот Unitree GO2 успешно навигировал в четырех сложных сценариях: узкий зигзагообразный коридор, избежание тонких препятствий, динамическая среда и загроможденное статическое окружение. Особенно впечатляет способность избегать тонкие тканевые полосы, с которыми полностью не справляется встроенная LiDAR-система робота — это показывает, как визуальное восприятие может превосходить традиционные сенсоры в определенных задачах.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров