Sleep Mode решает проблему многомодельного обслуживания: когда две большие языковые модели помещаются в GPU по отдельности, но не вместе. Вместо традиционной перезагрузки, занимающей 30-100+ секунд, модели «засыпают» и «просыпаются» за доли секунды, обеспечивая ускорение в 18-20 раз по сравнению с загрузкой новой vLLM.
Sleep Mode предлагает два уровня гибернации. Уровень 1 переносит веса модели в оперативную память процессора, обеспечивая максимальное время пробуждения (0,1-6 секунд). Уровень 2 полностью удаляет веса из памяти, требуя минимум ОЗУ, но с немного большим временем пробуждения (0,8-2,6 секунд). Оба режима совместимы с Tensor Parallelism, Pipeline Parallelism и Expert Parallelism.
Ключевое преимущество Sleep Mode — сохранение дорогостоящей инфраструктуры, которую обычные загрузчики пересоздают каждый раз. Технология сохраняет настройки CUDA-аллокатора, CUDA-графы, JIT-компиляцию GPU-ядер. Это объясняет, почему инференс после пробуждения работает на 61-88% быстрее по сравнению с холодным стартом.
Тестирование на GPU A4000 с моделями Qwen3-0.6B и Phi-3-vision-128k-instruct показало, что переключение между моделями занимает 0,1-0,8 секунды, обеспечивая ускорение в 58-203 раза по сравнению с холодным стартом. Для 5 переключений общее время сократилось с 357 до 113 секунд.
Источник новости и обложки: blog.vllm.ai