Команда ученых из университета Mohamed bin Zayed AI представила BLAZER — систему для обучения роботов манипулированию объектами. Главная особенность: система генерирует обучающие данные полностью автоматически, используя симуляции и большие языковые модели. В результате LLaMA*-8B, обученная с помощью BLAZER, показала успешность 47.8% в реальных задачах против 33.3% у более крупной LLaMA*-70B.
Принцип работы BLAZER напоминает метод «учитель учит ученика». Сначала мощная модель LLaMA*-70B генерирует тысячи вариантов решения задач в симуляторе — как опытный наставник, который показывает разные способы выполнения работы. Затем система автоматически отбирает только успешные решения (используя 2000 примеров на каждую задачу) и обучает на них более компактную модель LLaMA*-8B.

Исследователи протестировали систему на 9 различных задачах в симуляции — от складывания блоков до открывания бутылок. BLAZER показала среднюю успешность 83.2%, превзойдя базовую LLaMA*-70B на 6.2% при использовании в 8.75 раз меньше параметров. Особенно впечатляют результаты в сложных многошаговых задачах: в Stack Blocks BLAZER опередила учителя на 14%.
Для работы в реальном мире система использует 3 RGB-D камеры Intel RealSense и роботизированную руку Franka Emika Panda с 7 степенями свободы. Интересно, что BLAZER успешно справляется даже с задачами, которых не было в обучающей выборке — от математических головоломок с пронумерованными блоками до игры в крестики-нолики.
Главное преимущество подхода — полная автономность процесса обучения. Если раньше для создания обучающих данных требовались месяцы ручной работы инженеров, то BLAZER генерирует нужные примеры автоматически. Это как если бы робот научился учиться сам, наблюдая за успешными действиями в виртуальной среде, а затем применял эти знания в реальности.
*Компании и продукты, признанные экстремистскими и запрещены в РФ.
Источник новости и обложки: arxiv.org