Пространственный интеллект: World Labs создает AI для понимания 3D-мира

Пространственный интеллект: World Labs создает AI для понимания 3D-мира

Современные языковые модели преобразовали работу с абстрактными знаниями, но остаются ограниченными в понимании физического мира. Пространственный интеллект станет следующим рубежом ИИ, революционизируя робототехнику, креативность и научные открытия.

Пространственный интеллект играет фундаментальную роль в том, как мы взаимодействуем с физическим миром. Каждый день мы полагаемся на него для самых обычных действий: парковки автомобиля, представляя сужающийся зазор между бампером и бордюром, ловли связки ключей, брошенных через комнату, навигации по переполненному тротуару без столкновений, или заливки кофе в кружку, не глядя. В более экстремальных обстоятельствах пожарные ориентируются в рушащихся зданиях сквозь меняющийся дым, принимая мгновенные решения о стабильности и выживании, общаясь через жесты, язык тела и общий профессиональный инстинкт, для которого нет лингвистической замены.

Пространственный интеллект также фундаментален для нашего воображения и креативности. Рассказчики создают уникально богатые миры в своем сознании и используют множество форм визуальных медиа, чтобы донести их до других — от древней наскальной живописи до современного кино и иммерсивных видеоигр. В промышленных приложениях симуляции объектов, сцен и динамических интерактивных сред питают бесчисленное количество критически важных бизнес-кейсов — от промышленного дизайна до цифровых двойников и обучения роботов.

Сегодняшний ИИ все еще далек от человеческого уровня пространственных способностей. Современные мультимодальные языковые модели редко работают лучше случайного угадывания при оценке расстояния, ориентации и размера — или «мысленном» вращении объектов путем их регенерации под новыми углами. Они не могут ориентироваться в лабиринтах, распознавать короткие пути или предсказывать базовую физику. AI-генерируемые видео часто теряют связность после нескольких секунд.

Построение пространственно интеллектуального ИИ требует world models — нового типа генеративных моделей, чьи возможности понимания, рассуждения, генерации и взаимодействия с семантически, физически, геометрически и динамически сложными мирами далеко превосходят возможности сегодняшних языковых моделей. World Labs была основана в начале 2024 года на убеждении, что базовые подходы все еще находятся в стадии формирования, делая это определяющим вызовом следующего десятилетия. Компания уже поделилась с ограниченным числом пользователей Marble — первой в мире моделью, которая может быть промптирована мультимодальными входами для генерации и поддержания последовательных 3D-окружений, с которыми пользователи и рассказчики могут взаимодействовать и дальше строить в своем творческом процессе.

Источник новости и обложки: drfeifei.substack.com


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров