Представьте робота, который видит мяч, мгновенно оценивает ситуацию и бьет по воротам — все это за доли секунды, как человек. Исследователи создали систему управления для гуманоидных роботов, которая объединяет визуальное восприятие и контроль движений в единый процесс. Робот учится футбольным навыкам через обучение с подкреплением, имитируя человеческие движения и реагируя на мяч в реальном времени.
Футбол для роботов — это экстремальный тест на координацию восприятия и действия. Существующие системы обычно разделяют восприятие, планирование и движение на отдельные модули, что приводит к задержкам реакции и несогласованному поведению в динамичных условиях. Проблема усугубляется реальными ограничениями зрения: камера робота видит размытую картинку при быстром движении, обзор ограничен, а данные приходят с шумом и задержкой. Новый подход решает эту проблему через единый контроллер, который напрямую связывает то, что видит робот, с тем, как он двигается.
Система работает как интеллектуальный фильтр: энкодер сжимает историю визуальных наблюдений в компактное представление для управления, а декодер восстанавливает точное состояние из зашумленных данных. Чтобы подготовить робота к реальному миру, в симуляции создали виртуальную систему восприятия, которая имитирует характеристики настоящей камеры — вероятность обнаружения мяча, уровень шума, частоту обновления и задержку. Политика обучалась методом Adversarial Motion Priors на датасете человеческих движений: 76 секунд разнонаправленной ходьбы и 30 секунд ударов ногой. Роботов тестировали на траве, асфальте, грунте и резиновом покрытии при разном освещении — все без предварительной адаптации к этим условиям.
В симуляции робот успешно забивал мяч в ворота из большинства точек поля, причем успешность снижалась только на дальних дистанциях и при больших угловых отклонениях от направления на ворот (более ±10°). Реальные эксперименты показали результаты, сравнимые с симуляцией, без единого падения робота во всех тестах. Система снизила шум позиционирования мяча с 0.344 м до 0.186 м за последнюю секунду перед ударом — критичное улучшение, учитывая, что длина свода стопы робота всего 0.23 м. По сравнению с rule-based стратегией, которая требовала от 2 до 5 секунд в зависимости от ориентации робота, новый подход стабильно сокращал это время во всех направлениях, демонстрируя при этом более высокую угловую скорость поворота. Команда Tsinghua Hephaestus с этой системой выиграла Adult-size Humanoid League на RoboCup 2025 и World Humanoid Robot Games 2025, забив 76 голов и пропустив лишь 11.
Работа показывает путь к автономным роботам через интеграцию восприятия и действия в едином процессе обучения. В отличие от модульных систем, где стратегическое планирование отделено от моторного контроля, единая политика избегает разрозненных движений и обеспечивает плавную координацию. Adversarial discriminator направляет робота к человекоподобным движениям без ручной сегментации на отдельные навыки — одна политика учится искать мяч, преследовать его и бить в разных направлениях. Главное ограничение: контроллер фокусируется на индивидуальных навыках и не учитывает соперников или товарищей по команде, что не позволяет выполнять командные стратегии вроде паса или перехвата. Будущие исследования планируют расширить обучение на мультиагентные сценарии, чтобы роботы могли координироваться и адаптироваться в игре против других агентов.
Источник новости и обложки: arxiv.org