Gemini 2.5 Pro учит роботов исправлять ошибки в симуляции через визуальный анализ

GenDexHand: Генеративный пайплайн симуляции для ловкой манипуляции с улучшением стратегий на 53.4%

Исследователи представили GenDexHand — генеративный пайплайн моделирования, который самостоятельно создает разнообразные робототехнические задачи и среды для кистей роботов. GenDexHand вводит процедуру замкнутого цикла уточнения, который корректирует размещение и масштабы объектов на основе обратной связи от визуально-языковой модели (VLM), значительно улучшая среднее качество генерируемых сред. По сравнению с прямым генерированием сцен и руководства стратегиями в один шаг, их процедура итеративной доработки дает политики со средним улучшением 53.4% на целевых задачах.

GenDexHand работает как автоматизированный агент, который полностью в симуляции конструирует задачи манипуляции для кистей. Система структурирует процесс в три этапа: предложение и генерация задач, уточнение мультимодальной языковой моделью и генерация политик (алгоритмов управления). На первом этапе система использует робототехнические ресурсы и библиотеки объектов для предложения и генерации кандидатных задач, создавая соответствующие симуляционные среды и определяя цели задач. На втором этапе сгенерированные среды итеративно дорабатываются с помощью мультимодальных больших языковых моделей для обеспечения семантической согласованности и физической правдоподобности. На третьем этапе система использует гибридный подход: для задач, требующих свободного от столкновений движения, применяется планировщик движения; для контактного взаимодействия используется обучение с подкреплением.

Кисти роботов, благодаря своей анатомической структуре, способны выполнять сложные задачи и демонстрируют более высокую способность к обобщению в манипуляции по сравнению с захватами или вакуумными грипперами. Однако этот потенциал сопряжен со значительными трудностями. Для выполнения сложных задач кисти требуют точной координации между несколькими пальцами, и достижение такой скоординированного управления давно признано одной из основных трудностей, отличающих манипуляцию кистями от манипуляции с помощью захватов или вакуумных систем. Дополнительная сложность возникает из-за большого числа степеней свободы, присущих кистям. В качестве основной большой языковой модели (LLM) система использует Claude Sonnet 4.0. Мультимодальная модель Gemini 2.5 Pro анализирует визуализированные сцены и дает рекомендации по их изменению. Ключевой особенностью является цикл уточнения: сгенерированные сцены визуализируются из нескольких ракурсов, анализируются видеоязыковой моделью, которая выявляет проблемы с размерами объектов, размещением и физической нереализуемостью, затем выдает конкретные директивы по корректировке. Для упрощения контроля длинные горизонтальные задачи разлагаются на подзадачи, а для конкретных типов задач ограничивается пространство действий — например, в задачах ротации объектов запястье фиксируется, сосредотачивая исследование на координации пальцев.

Результаты экспериментов показала существенные улучшения благодаря предложенному подходу. Гибридный подход не только стабилизирует исследование, но и обеспечивает существенное среднее улучшение на 53.4% в показателе успешности задачи по всем оцененным сценариям.

Источник новости и обложки: arxiv.org


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров