Исследователи из Hong Kong Polytechnic University и Китайской академии наук представили MarketGen — масштабируемую платформу для автоматической генерации сцен супермаркетов. Система использует фреймворк процедурной генерации контента на основе агентов и поддерживает мультимодальный ввод через текст и референсные изображения.
Разработка агентов для коммерческих сред затруднена из-за ограниченности существующих датасетов, которые фокусируются на домашних сценариях с краткосрочными задачами. Существующие методы автогенерации сцен, использующие LLM или процедурную генерацию, также ориентированы на домашние условия и имеют ограничения при применении к коммерческим пространствам.
Платформа включает библиотеку из более чем 1100 моделей товаров супермаркета в 10 категориях и свыше 100 объектов инфраструктуры, включая стеллажи, холодильники и кассы. Ключевые объекты инфраструктуры, особенно стеллажи, параметрически декомпозированы, что позволяет процедурно управлять такими свойствами, как количество уровней, расстояние между ними и модульные комбинации. Подход расширяет эффективный пул моделей товаров и обеспечивает генерацию разнообразных реалистичных интерьеров.
На основе платформы предложен бенчмарк для оценки агентов в задачах, релевантных реальным операциям супермаркетов. Бенчмарк включает две задачи: Checkout Unloading — задачи манипуляции на столе с длительным горизонтом для кассиров, и In-Aisle Item Collection — задачи мобильной манипуляции для продавцов. Платформа и бенчмарк валидированы через обширные эксперименты, включая развертывание модульной системы агентов и sim-to-real перенос.
Источник новости и обложки: arxiv.org