Объединив зрение и движение в единый контроллер вместо разделенных модулей
Arxiv
Благодаря предсказанию восьми метрик производительности для каждого сегмента пути
Достигая стабильной точности уже на 20% данных против полного датасета
В то время как GPT-4o без пространственной информации справилась только на 28%
В отличие от методов анализа целых объектов, новая система отслеживает части
VLM-агент динамически компонует модули и учится на ошибках в реальном времени
Вместо фиксированной структуры обычных роботизированных рук инженеры создали систему с изменяемым каркасом по принципу осьминога
Система показывает конкурентные результаты: 90,30% на MMLU, 1,57% ошибок в речи (английский), 86,2% в видеоанализе
@ИИРоботы научились работать в команде как люди: новая система памяти повысила их эффективность на 203% и позволила масштабировать группы до 5 роботов
Робот научился использовать любые предметы как инструменты — ложкой переливать, веткой подметать. Успешность выросла на 30-60% по сравнению с другими системами
Ученые создали виртуальный полигон для роботов, который переводит реальные видео в симуляцию и тестирует более 7000 вариантов поведения
Система показывает ускорение в 18-200 раз и работает на 61-88% быстрее при инференсе по сравнению с холодным стартом
@ИИИсследователи создали метод TARC, позволяющий роботам автономно адаптировать частоту управления под текущую ситуацию. Тестирование на RC-автомобиле и четвероногом роботе показало значительное снижение частоты управления при сохранении производительности
Исследователи обучили робота ловким манипуляциям, анализируя 26 миллионов кадров обычных человеческих видео
GSWorld объединяет 3D Gaussian Splatting с физическими движками для создания замкнутого цикла обучения роботизированных политик















