Метод COLA помог гуманоидным роботам снизить нагрузку на человека на 27% при совместном переносе грузов

Метод COLA помог гуманоидным роботам снизить нагрузку на человека на 27% при совместном переносе грузов

Исследователи из Университета Гонконга и Пекинского института искусственного интеллекта разработали систему COLA, которая обучает гуманоидных роботов совместно переносить грузы с людьми. В ходе тестирования с участием 23 добровольцев система продемонстрировала снижение физической нагрузки на человека на 27.4% по сравнению с базовыми моделями.

Обзор COLA. Данная политика в основном состоит из трех этапов: (i) Обучается базовая политика управления всем телом для создания надежного контроллера. (ii) В среде обучения с замкнутым контуром поверх политики управления всем телом обучается остаточная политика «учителя» с использованием привилегированной информации для сотрудничества человека и гуманоида. (iii) Знания от политики «учителя» переносятся в политику «ученика» для развертывания в реальном мире с помощью поведенческого клонирования.

Ключевая особенность COLA — использование только проприоцептивных датчиков (внутренних датчиков положения суставов) без внешних камер или датчиков силы. Система работает по принципу «учитель-ученик»: сначала обучается политика-учитель с доступом к привилегированной информации об объекте, а затем знания передаются политике-ученику, которая работает только с данными о положении 29 суставов робота G1.

В симуляционных экспериментах COLA показала снижение человеческих усилий на 24.7% по сравнению с базовыми подходами, а также впечатляющие результаты точности координации: средняя ошибка отслеживания линейной скорости составила 10.2 см/с, а угловой скорости — 0.1 рад/с. Система способна адаптироваться к движениям человека, когда применяемая сила превышает 15 Н, что позволяет роботу понимать намерения партнера через физическое взаимодействие.

Замкнутая учебная среда. На данной иллюстрации представлена замкнутая учебная среда в симуляции. Зелёная стрелка обозначает целевую скорость перемещаемого объекта, а красная стрелка указывает на его текущую скорость.
Носилки с пострадавшим.

Обучение проходило в три этапа с использованием алгоритма PPO на 4096 параллельных симуляционных средах. Общее время тренировки составило 48 часов на одной видеокарте RTX 4090. Исследователи протестировали систему на различных объектах — от коробок до носилок — и подтвердили ее способность работать на неровной местности и склонах.

Важным преимуществом подхода стала способность робота неявно изучать динамику объектов и намерения человека через отклонения в положении суставов от целевых значений. Это позволяет системе работать без сложных моделей взаимодействия или внешних датчиков, что делает ее более практичной для реального применения в здравоохранении, домашней помощи и производстве.

Источник новости и обложки: arxiv.org


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров