LongCat-Flash-Omni: 560-миллиардная омни-модель с низкой задержкой для аудио-видео

Исследователи из Meituan представили LongCat-Flash-Omni — открытую омни-модальную систему ИИ с 560 миллиардами параметров, из которых активно используется только 27 миллиардов. Модель рассчитана на реал-тайм обработку аудио и видео одновременно, сохраняя при этом качество взаимодействия.

LongCat-Flash-Omni объединяет возможности обработки текста, изображений, видео и аудио в единой системе. В отличие от моделей, специализирующихся на одном типе данных, эта модель работает со всеми сразу — от распознавания речи до анализа изображений и генерации текстовых ответов. Архитектура использует технологию Mixture-of-Experts (MoE) с нулевой вычислительной стоимостью для неиспользуемых экспертов, что снижает требования к ресурсам.

В основе модели лежит усовершенствованная архитектура LongCat-Flash с компактными энкодерами для разных модальностей и механизмом чередования аудио-видео признаков. Модель поддерживает контекстное окно до 128 тысяч токенов, что позволяет ей обрабатывать длинные тексты и вести многооборотные диалоги. Ключевая инновация — многоэтапная предварительная подготовка с постепенным добавлением текста, аудио и видео под сбалансированной стратегией данных.

По результатам тестирования LongCat-Flash-Omni показала конкурентные результаты. На бенчмарке MMLU она набрала 90,30%, на логических задачах GPQA-diamond — 74,41%. В обработке видео модель достигает 86,2% на NextQA и 82,2% на TempCompass. По распознаванию речи на английском (LibriSpeech test-clean) результат составил 1,57% ошибок, на китайском AISHELL-1 — 0,63%. На задачах взаимодействия аудио-видео (AudioBench) система получила 83,33% на вопросах и 4,94 балла на оценке качества голоса.

Для обучения модели разработана схема Modality-Decoupled Parallelism, которая значительно ускоряет процесс подготовки таких масштабных систем. Модель требует как минимум одного узла с восемью ускорителями H20-141G для формата FP8 или двух узлов с 16 ускорителями H800-80G для BF16. Она доступна для запуска через инфраструктуру SGLang и уже реализована в мобильных приложениях для Android и iOS.

Исследователи открыли исходный код модели под лицензией MIT, чтобы ускорить развитие омни-модального ИИ в сообществе. Несмотря на мощность, команда отмечает, что модель не прошла специальную адаптацию для каждого возможного применения, поэтому разработчикам нужно внимательно оценить ее применимость перед использованием в критичных сценариях. Доступ к модели можно получить через Hugging Face или локальной загрузкой, а также через веб-сайт и мобильные приложения.

Источник новости и обложки: modelscope.cn


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров