Новый фреймворк учит роботов социальной навигации с помощью демонстраций и правил безопасности

Роботы учатся безопасно перемещаться среди людей благодаря комбинации ИИ и правил

Команда исследователей (Chanwoo Kim и др.) из нескольких университетов разработала новый подход к обучению мобильных роботов навигации в динамических средах с людьми. Методика сочетает награды на основе данных с правилами безопасности, что позволяет роботам лучше балансировать между адаптивностью к человеческому поведению и соблюдением ограничений безопасности. Статья была опубликована 14 октября 2025 года в arXiv.

Обзор предложенной архитектуры. A. Обучение вознаграждению: (a) на основе положительных и отрицательных демонстраций строятся карты вознаграждения, основанные на плотности, и (b) они дополняются правилами для избегания препятствий и достижения цели. B. Политика учителя: имитируются краткосрочные кандидатные сценарии, которые оцениваются с помощью комбинированного вознаграждения, и на основе этого выбираются безопасные и адаптивные управляющие действия. C. Политика ученика: указания учителя переносятся в компактную политику, основанную на данных лидарных наблюдений, что позволяет реализовать её в реальном мире.

Ключевая идея заключается в том, что интеграция data-driven наград с rule-based целями позволяет навигационным политикам достичь более эффективного баланса адаптивности и безопасности. Исследователи создали фреймворк, который изучает плотностную награду из положительных и отрицательных демонстраций, дополняя ее правилами для избегания препятствий и достижения цели.

Система использует sampling-based lookahead контроллер, который производит supervisory действия, одновременно безопасные и адаптивные. Эти действия затем дистиллируются в компактную студенческую политику, подходящую для работы в реальном времени с оценками неопределенности. Такой подход напоминает обучение водителя: сначала инструктор показывает правильные и неправильные примеры, затем ученик вырабатывает собственную стратегию вождения.

Карты вознаграждений и результирующие траектории на синтетическом наборе данных. (a) Карта вознаграждения, полученная методом обучения на положительных примерах, выделяющая оба возможных коридора. (b) Карта вознаграждения, полученная методом обучения на положительных и отрицательных примерах, снижающая вознаграждение вблизи людей. (c) Карта вознаграждения, сочетающая обученные и заданные правилами компоненты, что дает траектории с большим расстоянием до препятствий.
Снимки симуляции сценариев совместного использования лифта. (A) HR-RL: Человек справа, Робот слева. (B) HL-RR: Человек слева, Робот справа.

Эксперименты в синтетических симуляциях и моделировании совместной посадки в лифт показали стабильные улучшения в показателях успешности и временной эффективности по сравнению с базовыми методами. Практические демонстрации в реальном мире с участием людей подтвердили применимость разработки для развертывания в реальных условиях.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров