VCoT-Grasp: ИИ для роботических захватов с рассуждением

Исследователи представили VCoT-Grasp — новую нейросетевую модель для роботических захватов, которая работает как человеческий мозг при планировании движений. Система использует визуальное цепочечное мышление, чтобы «рассуждать» о том, как лучше схватить предмет, анализируя сцену пошагово и объясняя свои действия.

Ключевое отличие модели — способность работать в загроможденных пространствах с множеством объектов. Представьте робота на кухне: вместо того чтобы просто «видеть» чашку, он анализирует её положение относительно тарелок, ложек и других предметов, выстраивая логическую цепочку: «вижу чашку → она частично закрыта тарелкой → нужно захватить за ручку под определенным углом». Для обучения создали датасет VCoT-GraspSet с 167 000 синтетических изображений и более чем 1.36 миллионами вариантов захватов.

В отличие от предыдущих подходов к обнаружению и генерации захвата на основе языка, включая: (а) методы сквозного мультимодального слияния признаков, (b) модульные конвейеры на основе больших языковых моделей (LLM) и больших визуально-языковых моделей (VLM), (c) сквозные фундаментальные модели с языковыми рассуждениями, метод (d) предлагает **визуальную цепочку рассуждений** (visual chain-of-thought), побуждая модель «мыслить образами». Он делает акцент на **визуальном закреплении** (visual grounding) за счет локализации областей, содержащих ключевые визуальные подсказки, и динамического приближения (zooming in) для захвата контекста с соответствующей степенью детализации. Этот механизм обеспечивает превосходную **обобщающую способность** (generalization) на незнакомые объекты, фоны и элементы-помехи (distractors)

Модель превосходит существующие решения благодаря многоэтапной обработке визуальной информации. Традиционные системы либо слишком упрощены для сложных сценариев, либо требуют громоздких модульных архитектур. VCoT-Grasp работает по принципу «от начала до конца» — получает изображение и языковую команду, а выдает готовые координаты захвата с пояснением логики решения.

Эксперименты показали значительное улучшение показателей успешности захватов как на синтетических данных, так и в реальных условиях. Система эффективно обобщается на невиданные ранее объекты, новые фоны и отвлекающие элементы. Это критически важно для практического применения — робот сможет работать не только с объектами из обучающей выборки, но и адаптироваться к новым ситуациям на производстве или в быту.

Источник новости и обложки: arxiv.org

VCoT-Grasp: ИИ-модель учится захватывать предметы как человек — с визуальным рассуждением