Alibaba представила Aegaeon — систему, которая снижает потребление GPU для LLM-сервисов на 82%

Alibaba представила Aegaeon — систему, которая снижает потребление GPU для LLM-сервисов на 82%

Команда Alibaba Group совместно с Пекинским университетом разработала Aegaeon — систему для эффективного обслуживания множественных языковых моделей. В реальном развертывании система сократила количество необходимых GPU с 1 192 до 213, что означает 82% экономии ресурсов при обслуживании десятков моделей размером от 1.8B до 72B параметров.

Ключевая проблема современных LLM-сервисов заключается в неэффективном использовании GPU. Исследование показало, что 94.1% моделей получают лишь 1.35% всех запросов, но при этом занимают 17.7% GPU-ресурсов кластера. Это приводит к ситуации, когда некоторые GPU обрабатывают менее 0.2 запроса в секунду, в то время как теоретически возможно несколько запросов в секунду на один GPU.

Aegaeon использует автомасштабирование на уровне токенов вместо традиционного подхода на уровне запросов. Система может обслуживать до 7 моделей на одном GPU, в то время как существующие решения ограничены 2-3 моделями. При нагрузке 0.1 запроса в секунду Aegaeon поддерживает в 2 раза больше запросов, а при 0.5 RPS — в 2.5 раза больше по сравнению с ServerlessLLM.

Технически система решает две ключевые задачи: планирование токенов и оптимизацию автомасштабирования. Aegaeon разделяет обработку на этапы prefill и decoding, используя разные стратегии планирования для каждого. Время автомасштабирования сокращено на 97% благодаря переиспользованию компонентов, явному управлению памятью и мелкозернистой синхронизации KV-кеша.

В производственной среде Alibaba Cloud Model Studio система работает на кластере из 213 GPU H20, обслуживая 28 моделей размером 1.8-7B параметров и 19 моделей размером 32-72B параметров. Утилизация GPU выросла с среднего показателя 13.3-33.9% до 48.1% без нарушений SLA в течение 70-часового периода мониторинга.

Источник новости и обложки: ennanzhai.github.io


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров