Исследователи Alibaba улучшили навигацию роботов на 38%

Исследователи Alibaba улучшили навигацию роботов на 38%

Исследователи из Alibaba Group и Zhejiang University разработали SocialNav — фундаментальную модель для социально осознанной навигации роботов. Модель показала прирост на 38% в успешности навигации и на 46% в соблюдении социальных норм по сравнению с современными методами.

Большинство существующих подходов к робототехнической навигации фокусируются на планировании кратчайшего пути и избегании столкновений, при этом игнорируя соблюдение социальных норм. Это приводит к социально неприемлемому поведению, такому как переход дороги в неположенном месте и пересечение запретных зон вроде газонов.

SocialNav использует иерархическую архитектуру, состоящую из двух компонентов: Brain Module на основе vision-language модели для понимания социальных норм и Action Expert на основе conditional flow matching для генерации траекторий. Для обучения модели создан SocNav Dataset — гетерогенный датасет из 7 миллионов образцов, включающий траектории из интернет-видео, симулированных сред и реальных роботов. Датасет также содержит Cognitive Activation Dataset с цепочками рассуждений, предсказаниями социально допустимых зон и ответами на вопросы о навигации.

Причины ухудшения производительности замкнутого цикла в сквозном автономном вождении, включая несоответствия в наблюдениях и целевых установках. Справа: предлагается генерация контрафактных данных для решения проблемы несоответствия наблюдений и модель-ориентированная структура адаптации политики для устранения несоответствия целевых установок.

Обучение SocialNav проходит в три этапа: предварительное обучение для активации навигационных способностей, файнтюнинг на реальных данных для адаптации к физическому миру и финальная стадия SAFE-GRPO. SAFE-GRPO — это первый flow-based фреймворк обучения с подкреплением для навигации, который явно поощряет социально приемлемое поведение через механизмы вознаграждения, учитывающие социальные нормы.

На SocNav Benchmark модель достигла 86.1% успешности навигации, 82.5% соблюдения дистанции и 82.9% соблюдения времени в социально допустимых зонах. В реальных условиях SocialNav был развернут на роботе Unitree Go2 и протестирован в трех типах сред: уличный переход, офисный парк и торговый центр, показав 85% успешности в 60 испытаниях. Модель работает со скоростью более 5 Гц, обеспечивая навигацию в реальном времени.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров