VCoT-Grasp: ИИ-модель учится захватывать предметы как человек — с визуальным рассуждением

Исследователи представили VCoT-Grasp — новую нейросетевую модель для роботических захватов, которая работает как человеческий мозг при планировании движений. Система использует визуальное цепочечное мышление, чтобы «рассуждать» о том, как лучше схватить предмет, анализируя сцену пошагово и объясняя свои действия.

Ключевое отличие модели — способность работать в загроможденных пространствах с множеством объектов. Представьте робота на кухне: вместо того чтобы просто «видеть» чашку, он анализирует её положение относительно тарелок, ложек и других предметов, выстраивая логическую цепочку: «вижу чашку → она частично закрыта тарелкой → нужно захватить за ручку под определенным углом». Для обучения создали датасет VCoT-GraspSet с 167 000 синтетических изображений и более чем 1.36 миллионами вариантов захватов.

Модель превосходит существующие решения благодаря многоэтапной обработке визуальной информации. Традиционные системы либо слишком упрощены для сложных сценариев, либо требуют громоздких модульных архитектур. VCoT-Grasp работает по принципу «от начала до конца» — получает изображение и языковую команду, а выдает готовые координаты захвата с пояснением логики решения.

Эксперименты показали значительное улучшение показателей успешности захватов как на синтетических данных, так и в реальных условиях. Система эффективно обобщается на невиданные ранее объекты, новые фоны и отвлекающие элементы. Это критически важно для практического применения — робот сможет работать не только с объектами из обучающей выборки, но и адаптироваться к новым ситуациям на производстве или в быту.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров