Исследователи представили T(R,O) Grasp — диффузионную модель, которая генерирует точные захваты для роботизированных рук со средней успешностью 94.83%. Система решает одну из ключевых проблем робототехники: как научить роботов ловко хватать предметы разными типами манипуляторов.

В основе решения лежит T(R,O) Graph — унифицированное представление, которое моделирует пространственные трансформации между роботическими руками и объектами. Это как универсальный «переводчик», который понимает геометрию и робота, и предмета, а затем вычисляет оптимальный способ захвата.
Производительность системы впечатляет: время вывода составляет всего 0.21 секунды, а пропускная способность достигает 41 захвата в секунду на GPU NVIDIA A100 40GB. Такая скорость критически важна для замкнутого цикла управления — когда робот должен принимать решения в реальном времени.

Главное преимущество T(R,O) Grasp — кросс-воплощенность: одна модель работает с различными типами роботизированных рук без дополнительной настройки. При этом система значительно снижает потребление памяти по сравнению с существующими методами, что открывает путь к созданию базовой модели для ловких манипуляций.
Источник новости и обложки: arxiv.org