Робот-судья: система LACY проверяет свои действия и достигает 95% успеха в симуляции

Робот-судья: система LACY проверяет свои действия и достигает 95% успеха в симуляции

Представьте робота, который не только выполняет команду «возьми желтый кубик», но и может объяснить, почему он это делает. Исследователи создали систему LACY, которая учит роботов двустороннему пониманию: превращать слова в действия и, наоборот, описывать наблюдаемые манипуляции человеческим языком. Ключевое достижение — робот теперь может самостоятельно проверять правильность своих решений, создавая цикл самообучения без постоянного участия человека.

Современные роботизированные системы работают как односторонний переводчик: получают инструкцию на естественном языке и выполняют действие. Проблема в том, что такой подход требует огромных объемов размеченных данных — каждое движение нужно показать и описать вручную, что дорого и трудоемко. LACY решает эту задачу через философию «двух путей к цели»: система одновременно учится генерировать действия из команд (L2A) и объяснять действия словами (A2L). Это как если бы повар не только готовил по рецепту, но и мог, глядя на готовое блюдо, восстановить последовательность его приготовления. Третий компонент — модуль проверки согласованности (L2C) — работает судьей, сравнивая исходную команду с тем, как робот описал выполненное действие.

Система построена на едином визуально-языковом фундаменте LLaVA-NeXT, дообученном в два этапа. Сначала модель учится распознавать объекты и определять их координаты на 8000 изображений — это базовое понимание пространства. Затем на 1000 демонстрациях робот осваивает три задачи одновременно, используя принцип «цепочки рассуждений»: перед каждым действием модель сначала проговаривает, какие объекты видит и где они находятся, а потом принимает решение. Для описания действий система генерирует два типа пространственных инструкций — абсолютные («положи в центр слева от рабочей зоны») и относительные («положи справа от бутылки с горчицей»), переключаясь между ними в зависимости от расстояния до ближайших предметов. Эксперименты проводились как в симуляции CoppeliaSim с 32 объектами YCB, так и на реальном роботе Franka Emika Panda с 12 предметами.

Результаты впечатляют: на задачах захвата и размещения LACY достиг 95% успешности против 6% у базовой модели без дообучения — рост более чем в 15 раз. Даже мощная GPT-4o без явной информации о положении объектов справилась только на 28%, что подчеркивает важность специализированного обучения для пространственного понимания. Ключевой прорыв — способность к самосовершенствованию: начав со 100 демонстраций, система через три итерации цикла L2A→A2L→L2C значительно повысила точность выполнения задач, каждый раз генерируя по 100 новых примеров и отбирая только те, где большинство описаний действия совпадают с исходной командой. В реальных условиях совместное обучение всех трех задач дало 88% успешности генерации действий и такую же точность объяснений против 78% и 36% при раздельном обучении. Единственное ограничение — модуль L2C иногда пропускает ошибки в распознавании объектов, что приводит к неправильному выбору места захвата, но исследователи планируют усилить блок проверки качества восприятия.

LACY демонстрирует фундаментальный сдвиг в подходе к обучению роботов: от пассивного накопления данных к активному самообучению через понимание. Способность не просто выполнять команды, но и объяснять свои действия, создает более глубокое внутреннее представление о задачах и открывает путь к масштабируемому роботизированному интеллекту. Система уже доказала свою эффективность на столешнице, и следующий шаг — расширение на сложные многоэтапные задачи и более широкий спектр манипуляций. Двусторонняя связь языка и действия может стать тем самым недостающим звеном, которое позволит роботам учиться так же естественно, как это делают люди.

Источник новости и обложки: arxiv.org


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров