Исследователи из Alibaba Group и Zhejiang University разработали SocialNav — фундаментальную модель для социально осознанной навигации роботов. Модель показала прирост на 38% в успешности навигации и на 46% в соблюдении социальных норм по сравнению с современными методами.
Большинство существующих подходов к робототехнической навигации фокусируются на планировании кратчайшего пути и избегании столкновений, при этом игнорируя соблюдение социальных норм. Это приводит к социально неприемлемому поведению, такому как переход дороги в неположенном месте и пересечение запретных зон вроде газонов.
SocialNav использует иерархическую архитектуру, состоящую из двух компонентов: Brain Module на основе vision-language модели для понимания социальных норм и Action Expert на основе conditional flow matching для генерации траекторий. Для обучения модели создан SocNav Dataset — гетерогенный датасет из 7 миллионов образцов, включающий траектории из интернет-видео, симулированных сред и реальных роботов. Датасет также содержит Cognitive Activation Dataset с цепочками рассуждений, предсказаниями социально допустимых зон и ответами на вопросы о навигации.
Обучение SocialNav проходит в три этапа: предварительное обучение для активации навигационных способностей, файнтюнинг на реальных данных для адаптации к физическому миру и финальная стадия SAFE-GRPO. SAFE-GRPO — это первый flow-based фреймворк обучения с подкреплением для навигации, который явно поощряет социально приемлемое поведение через механизмы вознаграждения, учитывающие социальные нормы.
На SocNav Benchmark модель достигла 86.1% успешности навигации, 82.5% соблюдения дистанции и 82.9% соблюдения времени в социально допустимых зонах. В реальных условиях SocialNav был развернут на роботе Unitree Go2 и протестирован в трех типах сред: уличный переход, офисный парк и торговый центр, показав 85% успешности в 60 испытаниях. Модель работает со скоростью более 5 Гц, обеспечивая навигацию в реальном времени.
Источник новости и обложки: arxiv.org