GLM-5 использует архитектуру DSA (DeepSeek Sparse Attention), которая заменяет стандартный механизм внимания с квадратичной сложностью на динамический отбор токенов — это снижает вычислительную нагрузку в 1.5–2 раза на длинных последовательностях
@ИИ


