Ученые из Калифорнийского университета в Беркли создали систему LEGO, которая обучает роботов универсальному захвату предметов, тренируясь только на 250 простых игрушках, собранных из четырех базовых геометрических фигур. Метод показал 67% успешности при захвате реальных объектов из набора YCB, обойдя крупные модели вроде OpenVLA-OFT и π0-FAST, которые требуют значительно больше данных для обучения.

Ключевая идея заимствована из когнитивной психологии: дети осваивают навыки манипулирования объектами, сначала играя с простыми игрушками, а затем применяя полученные знания к сложным предметам. Исследователи создали «игрушки Сезанна» — случайные комбинации из сфер, кубоидов, цилиндров и колец. На этих объектах собрали 1 500 демонстраций для реального робота Franka и 2 500 — в симуляции.
Секрет успеха кроется в механизме Detection Pooling (DetPool) — новом способе извлечения визуальных признаков, который фокусирует внимание нейросети исключительно на целевом объекте, игнорируя фон и отвлекающие элементы. Это позволяет модели размером всего 86 миллионов параметров превосходить системы с 3-7 миллиардами параметров, обученные на масштабных датасетах.


Эксперименты проводились на трех платформах: в симуляции ManiSkill, на роботе Franka Panda с захватом Robotiq и на гуманоиде Unitree H1-2 с ловкими руками Inspire. В последнем случае система достигла 50.77% успешности при обучении всего на 500 демонстрациях. Исследование показало, что количество демонстраций влияет на результат сильнее, чем разнообразие игрушек, а сферы оказались наиболее важными из четырех примитивов.
Подход LEGO демонстрирует путь к масштабируемому обучению роботов манипулированию через композиционное понимание объектов. Вместо сбора огромных датасетов с реальными предметами, достаточно научить робота основам на простых геометрических формах — и он сможет обобщать знания на сложные объекты реального мира 🤖
Источник новости и обложки: arxiv.org