Xiaomi представила VLA-модель Xiaomi-Robotics-0, которая управляет роботом в реальном времени с задержкой всего 80 миллисекунд на потребительской видеокарте RTX 4090. Модель показала рекордные 98,7% успеха на бенчмарке LIBERO и достигла пропускной способности 1,2 полотенца в минуту при сложной бимануальной манипуляции. Это первая открытая VLA-модель, которая работает плавно и быстро на реальных роботах без специализированного оборудования.
Обычные VLA-модели страдают от высокой задержки инференса из-за миллиардов параметров, что вызывает рывки и приводит робота в нестандартные ситуации. Синхронное выполнение заставляет робота простаивать во время инференса, а существующие асинхронные методы вроде RTC позволяют модели копировать предыдущие действия вместо реакции на визуальные сигналы. Это критично для задач вроде складывания полотенец, где модель может зациклиться на повторении неудачного движения вместо перехвата.
Инженеры Xiaomi решили проблему через двухэтапный подход: пре-тренинг на 200 миллионах временных шагов робототехнических траекторий плюс 80 миллионах сэмплов визуально-языковых данных, затем пост-тренинг с Lambda-маской внимания. Lambda-маска заставляет токены будущих действий игнорировать префикс предыдущих действий, фокусируясь на визуальных наблюдениях и языковых инструкциях — это предотвращает шорткат через копирование. При деплое модель выполняет 5 шагов флоу-матчинга, интегрируя временной параметр τ от 0 до 1, при этом новый чанк действий начинается с шага Δt_inf, где Δt_inf — это задержка инференса.
На реальных роботах Xiaomi-Robotics-0 показала 1,2 полотенца в минуту при складывании против 1,0 у π₀.5 и Training RTC, успешно избегая зацикливаний при захвате нескольких слоев ткани. При разборке Lego модель сортирует кирпичи с пропускной способностью выше конкурентов благодаря плавным переходам между инференсами — робот не простаивает во время вычислений. Модель сохранила способности базовой VLM Qwen3-VL-4B, показав 40,8% на ERQA бенчмарке эмбодированного рассуждения против 40,0% у исходной модели и превзойдя 33,5% MolmoAct.
Источник новости и обложки: arxiv.org

