Компания Microsoft опубликовала в журнале Nature результаты разработки World and Human Action Model (WHAM) под названием Muse. Это первая генеративная ИИ-модель, способная создавать как визуальную составляющую игр, так и действия контроллера. Модель обучалась на данных игры Bleeding Edge от студии Ninja Theory, собранных с 2020 года.
Разработка началась в декабре 2022 года после выхода ChatGPT, когда команда Microsoft Research решила применить трансформерную архитектуру к игровым данным. Для обучения использовался сначала кластер из 100 GPU V100, а затем более мощные H100.

Текущая версия Muse генерирует изображения с разрешением 300×180 пикселей, что значительно выше начального разрешения 128×128. Модель может создавать последовательности геймплея длительностью до 2 минут, сохраняя согласованность физики и механик игры.
Microsoft открыла исходный код Muse и выпустила WHAM Demonstrator — интерфейс для взаимодействия с моделью. Разработчики могут экспериментировать с весами модели и тестовыми данными на платформе Azure AI Foundry.
Источник новости и обложки: www.microsoft.com