Роботы научились захватывать любые предметы, играя с простыми игрушками из 4 фигур

Роботы научились захватывать любые предметы, играя с простыми игрушками из 4 фигур

Ученые из Калифорнийского университета в Беркли создали систему LEGO, которая обучает роботов универсальному захвату предметов, тренируясь только на 250 простых игрушках, собранных из четырех базовых геометрических фигур. Метод показал 67% успешности при захвате реальных объектов из набора YCB, обойдя крупные модели вроде OpenVLA-OFT и π0-FAST, которые требуют значительно больше данных для обучения.

Их политика захвата, построенная всего на четырех базовых примитивах (слева) и обученная исключительно на случайных композициях игрушек (в центре), без дообучения обобщается до реальных объектов (справа) и достигает 67% успеха на 64 объектах из набора данных YCB.

Ключевая идея заимствована из когнитивной психологии: дети осваивают навыки манипулирования объектами, сначала играя с простыми игрушками, а затем применяя полученные знания к сложным предметам. Исследователи создали «игрушки Сезанна» — случайные комбинации из сфер, кубоидов, цилиндров и колец. На этих объектах собрали 1 500 демонстраций для реального робота Franka и 2 500 — в симуляции.

Секрет успеха кроется в механизме Detection Pooling (DetPool) — новом способе извлечения визуальных признаков, который фокусирует внимание нейросети исключительно на целевом объекте, игнорируя фон и отвлекающие элементы. Это позволяет модели размером всего 86 миллионов параметров превосходить системы с 3-7 миллиардами параметров, обученные на масштабных датасетах.

Игрушки серии «Сезанн» состоят из различного количества примитивов. Каждая игрушка генерируется путём случайной сборки от одного до пяти примитивов со случайными размерами и цветами.
Архитектура LEGO с DetPool. (a) LEGO использует ViT с DetPool для извлечения признаков целевого объекта и трансформер для прогнозирования будущих действий на основе визуальных признаков и проприоцепции. (b) ViT извлекает признаки, сфокусированные на целевом объекте, с помощью DetPool, который ограничивает внимание областями изображения с объектом с помощью маски внимания и выполняет усредняющее пулирование над выходными токенами этих областей для получения итогового объектно-ориентированного визуального признака.

Эксперименты проводились на трех платформах: в симуляции ManiSkill, на роботе Franka Panda с захватом Robotiq и на гуманоиде Unitree H1-2 с ловкими руками Inspire. В последнем случае система достигла 50.77% успешности при обучении всего на 500 демонстрациях. Исследование показало, что количество демонстраций влияет на результат сильнее, чем разнообразие игрушек, а сферы оказались наиболее важными из четырех примитивов.

Подход LEGO демонстрирует путь к масштабируемому обучению роботов манипулированию через композиционное понимание объектов. Вместо сбора огромных датасетов с реальными предметами, достаточно научить робота основам на простых геометрических формах — и он сможет обобщать знания на сложные объекты реального мира 🤖

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров