Роботы-гуманоиды научились играть в футбол с помощью обучения с подкреплением и человеческих демонстраций

Роботы-гуманоиды научились играть в футбол с помощью обучения с подкреплением и человеческих демонстраций

Представьте робота, который видит мяч, мгновенно оценивает ситуацию и бьет по воротам — все это за доли секунды, как человек. Исследователи создали систему управления для гуманоидных роботов, которая объединяет визуальное восприятие и контроль движений в единый процесс. Робот учится футбольным навыкам через обучение с подкреплением, имитируя человеческие движения и реагируя на мяч в реальном времени.

Футбол для роботов — это экстремальный тест на координацию восприятия и действия. Существующие системы обычно разделяют восприятие, планирование и движение на отдельные модули, что приводит к задержкам реакции и несогласованному поведению в динамичных условиях. Проблема усугубляется реальными ограничениями зрения: камера робота видит размытую картинку при быстром движении, обзор ограничен, а данные приходят с шумом и задержкой. Новый подход решает эту проблему через единый контроллер, который напрямую связывает то, что видит робот, с тем, как он двигается.

Обзор системы. Робот в реальном мире оснащен бортовой камерой для визуального восприятия. Обнаруженные на изображениях объекты проецируются в топографическое пространство. Обнаружения мяча передаются непосредственно политике, в то время как ориентиры поля обрабатываются модулем одометра для определения местоположения цели на основе долгосрочной информации. Пайплайн восприятия предназначен для эффективного извлечения и представления визуальных характеристик для политики обучения с подкреплением.

Система работает как интеллектуальный фильтр: энкодер сжимает историю визуальных наблюдений в компактное представление для управления, а декодер восстанавливает точное состояние из зашумленных данных. Чтобы подготовить робота к реальному миру, в симуляции создали виртуальную систему восприятия, которая имитирует характеристики настоящей камеры — вероятность обнаружения мяча, уровень шума, частоту обновления и задержку. Политика обучалась методом Adversarial Motion Priors на датасете человеческих движений: 76 секунд разнонаправленной ходьбы и 30 секунд ударов ногой. Роботов тестировали на траве, асфальте, грунте и резиновом покрытии при разном освещении — все без предварительной адаптации к этим условиям.

Валидация и анализ поведения. (A) Цвет фоновой сетки представляет процент успешных попыток из 8192 симуляционных тестов, в то время как точки указывают на процент успешных попыток из 10 последовательных аппаратных тестов. Благодаря эффективной калибровке, стратегия обеспечивает надежную аппаратную производительность, которая близко соответствует результатам симуляции. (B) Робот ищет мяч вдалеке при старте вблизи края поля, руководствуясь предполагаемой позицией мяча, оцененной стратегией. (C) Робот поворачивается, чтобы найти мяч позади себя, когда находится около центра поля. (D и E) Расположение точек опоры робота и их временные характеристики демонстрируют адаптивную походку с более короткими шагами и более быстрым темпом, что позволяет эффективно корректировать положение перед ударом, как показано на примерах удара вперед и назад.

В симуляции робот успешно забивал мяч в ворота из большинства точек поля, причем успешность снижалась только на дальних дистанциях и при больших угловых отклонениях от направления на ворот (более ±10°). Реальные эксперименты показали результаты, сравнимые с симуляцией, без единого падения робота во всех тестах. Система снизила шум позиционирования мяча с 0.344 м до 0.186 м за последнюю секунду перед ударом — критичное улучшение, учитывая, что длина свода стопы робота всего 0.23 м. По сравнению с rule-based стратегией, которая требовала от 2 до 5 секунд в зависимости от ориентации робота, новый подход стабильно сокращал это время во всех направлениях, демонстрируя при этом более высокую угловую скорость поворота. Команда Tsinghua Hephaestus с этой системой выиграла Adult-size Humanoid League на RoboCup 2025 и World Humanoid Robot Games 2025, забив 76 голов и пропустив лишь 11.

Работа показывает путь к автономным роботам через интеграцию восприятия и действия в едином процессе обучения. В отличие от модульных систем, где стратегическое планирование отделено от моторного контроля, единая политика избегает разрозненных движений и обеспечивает плавную координацию. Adversarial discriminator направляет робота к человекоподобным движениям без ручной сегментации на отдельные навыки — одна политика учится искать мяч, преследовать его и бить в разных направлениях. Главное ограничение: контроллер фокусируется на индивидуальных навыках и не учитывает соперников или товарищей по команде, что не позволяет выполнять командные стратегии вроде паса или перехвата. Будущие исследования планируют расширить обучение на мультиагентные сценарии, чтобы роботы могли координироваться и адаптироваться в игре против других агентов.

Источник новости и обложки: arxiv.org


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров