Диффузионная модель T(R,O) Grasp научилась генерировать роботические захваты за 0.21 секунды

Диффузионная модель T(R,O) Grasp научилась генерировать роботические захваты за 0.21 секунды

Исследователи представили T(R,O) Grasp — диффузионную модель, которая генерирует точные захваты для роботизированных рук со средней успешностью 94.83%. Система решает одну из ключевых проблем робототехники: как научить роботов ловко хватать предметы разными типами манипуляторов.

В основе решения лежит T(R,O) Graph — унифицированное представление, которое моделирует пространственные трансформации между роботическими руками и объектами. Это как универсальный «переводчик», который понимает геометрию и робота, и предмета, а затем вычисляет оптимальный способ захвата.

Производительность системы впечатляет: время вывода составляет всего 0.21 секунды, а пропускная способность достигает 41 захвата в секунду на GPU NVIDIA A100 40GB. Такая скорость критически важна для замкнутого цикла управления — когда робот должен принимать решения в реальном времени.

Главное преимущество T(R,O) Grasp — кросс-воплощенность: одна модель работает с различными типами роботизированных рук без дополнительной настройки. При этом система значительно снижает потребление памяти по сравнению с существующими методами, что открывает путь к созданию базовой модели для ловких манипуляций.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров