Исследователи из Disney Research разработали метод обучения двуногих роботов контролируемому падению. Технология основана на обучении с подкреплением и балансирует между минимизацией ударов и достижением заданной конечной позы. Это первый общий подход к управляемому падению двуногих роботов в реальных условиях.
При динамичных движениях двуногие роботы сталкиваются с риском падения, несмотря на достижения в области робастности контроллеров на основе обучения с подкреплением. Стандартные стратегии падения включают заморозку актуаторов с высокими коэффициентами или применение низких коэффициентов для податливости. Оба подхода обеспечивают ограниченную управляемость результирующего движения и приводят к высоким ударным нагрузкам.
Метод использует функцию награды, которая комбинирует отслеживание конечной позы с минимизацией ударов и защитой критических компонентов робота. Для обеспечения робастности к широкому диапазону начальных условий падения и возможности задать произвольную конечную позу во время инференса исследователи разработали стратегию сэмплирования начальных и конечных поз на основе симуляции. Функция награды взвешивает контактные силы каждого компонента с учетом его чувствительности, а отслеживание позы модулируется временной кубической сплайн-функцией, которая интерполирует от минимизации ударов в начале падения к точному достижению целевой позы.
Исследователи сравнили метод с стандартными стратегиями падения, включая нулевой крутящий момент, демпфирование актуаторов и их заморозку. Метод существенно снижает максимальные и средние ударные силы по сравнению с бейзлайнами, а также демонстрирует значительно меньшую вариативность. Для оценки чувствительности компонентов команда обучила политику с повышенным весом для батареи, что привело к снижению 95-го процентиля ударных сил на батарею с 3321.75 Н до 810.69 Н, при этом медианное значение составило 0.00 Н.
Команда провела качественные эксперименты в реальных условиях на двуногом роботе с 20 степенями свободы, массой 16.2 кг и высотой 0.84 м. Исследователи выбрали 10 конечных поз, разработанных художниками, и варьировали начальные условия, случайным образом применяя внешние силы к роботу. Все эксперименты были проведены с одним роботом, который остался полностью функционален и не показал заметных повреждений, что указывает на эффективность метода в защите наиболее чувствительных компонентов.
Источник новости и обложки: arxiv.org