Роботы учатся безопасно перемещаться среди людей благодаря комбинации ИИ и правил

Роботы учатся безопасно перемещаться среди людей благодаря комбинации ИИ и правил

Команда исследователей из нескольких университетов разработала новый подход к обучению мобильных роботов навигации в динамических средах с людьми. Методика сочетает награды на основе данных с правилами безопасности, что позволяет роботам лучше балансировать между адаптивностью к человеческому поведению и соблюдением ограничений безопасности. Статья была опубликована 14 октября 2025 года в arXiv.

Ключевая идея заключается в том, что интеграция data-driven наград с rule-based целями позволяет навигационным политикам достичь более эффективного баланса адаптивности и безопасности. Исследователи создали фреймворк, который изучает плотностную награду из положительных и отрицательных демонстраций, дополняя ее правилами для избегания препятствий и достижения цели.

Система использует sampling-based lookahead контроллер, который производит supervisory действия, одновременно безопасные и адаптивные. Эти действия затем дистиллируются в компактную студенческую политику, подходящую для работы в реальном времени с оценками неопределенности. Такой подход напоминает обучение водителя: сначала инструктор показывает правильные и неправильные примеры, затем ученик вырабатывает собственную стратегию вождения.

Эксперименты в синтетических симуляциях и моделировании совместной посадки в лифт показали стабильные улучшения в показателях успешности и временной эффективности по сравнению с базовыми методами. Практические демонстрации в реальном мире с участием людей подтвердили применимость разработки для развертывания в реальных условиях.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров