Компания DeepSeek анонсировала экспериментальную модель V3.2-Exp, которая впервые использует собственную технологию DeepSeek Sparse Attention (DSA). Новый подход обещает более быструю обработку длинных контекстов при сохранении качества ответов, а стоимость использования API снизилась более чем на 50%.

Основой V3.2-Exp стала модель V3.1-Terminus, но с кардинально новым механизмом внимания. DSA использует мелкозернистое разреженное внимание, что позволяет значительно сократить вычислительные затраты при работе с длинными контекстами. При этом тестирование показало, что производительность новой модели находится на том же уровне, что и у предшественника.

Снижение цен на API стало приятным бонусом для разработчиков — стоимость использования DeepSeek упала более чем на 50% и вступила в силу немедленно. Для тех, кто хочет сравнить модели, предыдущая V3.1-Terminus останется доступна через временный API до 15 октября 2025 года.
Компания традиционно придерживается принципов открытого исходного кода — модель V3.2-Exp уже доступна на HuggingFace, а технический отчет опубликован на GitHub (.pdf). Разработчики также предоставили ключевые GPU-ядра на TileLang и CUDA для быстрого прототипирования исследований.
Источник новости и обложки: api-docs.deepseek.com