vLLM Sleep Mode позволяет переключать ИИ-модели за секунды вместо минут Система показывает ускорение в 18-200 раз и работает на 61-88% быстрее при инференсе по сравнению с холодным стартом@ИИ28.10.2025
NVIDIA представила метод обучения 12-миллиардных языковых моделей с 4-битной точностью NVFP4 Самая длинная публично задокументированная тренировка в 4-битной точности на сегодняшний день. NVFP4 дает 2-3x ускорение при сохранении качества@ИИ14.10.2025