Исследователи научили роботов точной сборке через визуально-тактильную обратную связь

Исследователи научили роботов точной сборке через визуально-тактильную обратную связь

Команда ученых из Columbia University, NVIDIA и UC San Diego представила VT-Refine — систему обучения роботов сложным двуручным сборочным операциям. Новый подход сочетает 30 демонстраций от человека, высокоточное тактильное моделирование и обучение с подкреплением для выполнения контактно-насыщенных задач сборки.

Ключевая особенность VT-Refine — использование пьезорезистивных тактильных сенсоров с разрешением 12×32 единицы (всего 384 точки касания на каждом пальце) и пространственным разрешением 2 мм. В отличие от оптических тактильных сенсоров, которые сложно точно симулировать, выбранная модальность фиксирует только нормальные силы, что значительно упрощает перенос из симуляции в реальность.

Предлагается VT-Refine — новая система обучения стратегии с визуально-тактильным восприятием для точных задач сборки двумя манипуляторами, требующих интенсивного контакта. Сверху слева: Собираются реальные демонстрации и предварительно обучается стратегия на основе диффузионной модели, используя визуальные и тактильные данные. Справа и внизу слева: Тактильная симуляция и обучение с подкреплением в больших масштабах используются для тонкой настройки стратегии, которая затем переносится обратно в реальный мир. Полученная стратегия демонстрирует высокую производительность как в симулированной, так и в реальной средах.

Процесс обучения состоит из двух этапов: сначала политика предварительно обучается на небольшом наборе человеческих демонстраций, затем дообучается в GPU-ускоренной симуляции методом обучения с подкреплением. Представьте, что робот сначала наблюдает, как человек 30 раз выполняет сборку разъема, а затем тысячи раз тренируется в виртуальной среде, совершенствуя микродвижения.

Эксперименты на пяти сложных задачах двуручной сборки показали значительное улучшение производительности. Дообучение с подкреплением повысило успешность выполнения примерно на 20% для системы только с визуальной информацией и примерно на 40% для визуально-тактильной версии. Особенно важно, что роботы научились выполнять характерные для человека движения «покачивание и стыковка» — быстрые циклы зондирования, микрокоррекции и повторного зондирования.

Тактильное зондирование в реальности и симуляции. (a) Аппаратная конфигурация в реальном мире, включая конструкцию пьезорезистивного тактильного сенсора. Четыре тактильные сенсорные площадки (по две на каждой руке) установлены на мягком захвате для регистрации сил контакта. (b) Воспроизведение процесса тактильного зондирования в симуляции. Модель пружинного демпфера используется для имитации взаимодействия между тактильными точками и объектами с целью генерации реалистичных тактильных сигналов.
Двухэтапное обучение визуально-тактильной стратегии. Этап 1: Собираются реальные демонстрации от человека, включающие визуальную и тактильную модальности, и предварительно обучается диффузионная стратегия. Этап 2: Те же сенсорные модальности симулируются в моделировании, и предварительно обученная диффузионная стратегия дорабатывается с помощью обучения с подкреплением на основе градиента стратегии.

Система успешно работает на двух робототехнических платформах: настольной установке с двумя 6-DoF манипуляторами WidowX и полугуманоидном роботе с двумя 7-DoF руками Kinova Gen3. Это первая работа, демонстрирующая успешное крупномасштабное обучение с подкреплением и перенос из симуляции в реальность для двуручных визуально-тактильных политик — прорыв, который может ускорить развитие роботов-сборщиков в промышленности.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров