Исследователи представили VCoT-Grasp — новую нейросетевую модель для роботических захватов, которая работает как человеческий мозг при планировании движений. Система использует визуальное цепочечное мышление, чтобы «рассуждать» о том, как лучше схватить предмет, анализируя сцену пошагово и объясняя свои действия.
Ключевое отличие модели — способность работать в загроможденных пространствах с множеством объектов. Представьте робота на кухне: вместо того чтобы просто «видеть» чашку, он анализирует её положение относительно тарелок, ложек и других предметов, выстраивая логическую цепочку: «вижу чашку → она частично закрыта тарелкой → нужно захватить за ручку под определенным углом». Для обучения создали датасет VCoT-GraspSet с 167 000 синтетических изображений и более чем 1.36 миллионами вариантов захватов.

Модель превосходит существующие решения благодаря многоэтапной обработке визуальной информации. Традиционные системы либо слишком упрощены для сложных сценариев, либо требуют громоздких модульных архитектур. VCoT-Grasp работает по принципу «от начала до конца» — получает изображение и языковую команду, а выдает готовые координаты захвата с пояснением логики решения.
Эксперименты показали значительное улучшение показателей успешности захватов как на синтетических данных, так и в реальных условиях. Система эффективно обобщается на невиданные ранее объекты, новые фоны и отвлекающие элементы. Это критически важно для практического применения — робот сможет работать не только с объектами из обучающей выборки, но и адаптироваться к новым ситуациям на производстве или в быту.
Источник новости и обложки: arxiv.org