vLLM Sleep Mode позволяет переключать ИИ-модели за секунды вместо минут

vLLM Sleep Mode позволяет переключать ИИ-модели за секунды вместо минут

Sleep Mode решает проблему многомодельного обслуживания: когда две большие языковые модели помещаются в GPU по отдельности, но не вместе. Вместо традиционной перезагрузки, занимающей 30-100+ секунд, модели «засыпают» и «просыпаются» за доли секунды, обеспечивая ускорение в 18-20 раз по сравнению с загрузкой новой vLLM.

Sleep Mode предлагает два уровня гибернации. Уровень 1 переносит веса модели в оперативную память процессора, обеспечивая максимальное время пробуждения (0,1-6 секунд). Уровень 2 полностью удаляет веса из памяти, требуя минимум ОЗУ, но с немного большим временем пробуждения (0,8-2,6 секунд). Оба режима совместимы с Tensor Parallelism, Pipeline Parallelism и Expert Parallelism.

Ключевое преимущество Sleep Mode — сохранение дорогостоящей инфраструктуры, которую обычные загрузчики пересоздают каждый раз. Технология сохраняет настройки CUDA-аллокатора, CUDA-графы, JIT-компиляцию GPU-ядер. Это объясняет, почему инференс после пробуждения работает на 61-88% быстрее по сравнению с холодным стартом.

Тестирование на GPU A4000 с моделями Qwen3-0.6B и Phi-3-vision-128k-instruct показало, что переключение между моделями занимает 0,1-0,8 секунды, обеспечивая ускорение в 58-203 раза по сравнению с холодным стартом. Для 5 переключений общее время сократилось с 357 до 113 секунд.

Источник новости и обложки: blog.vllm.ai


Главред proglib.io . Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров