CUDA-L2: Ускорение матриц на 26% через LLM и RL

Команда DeepReinforce представила систему CUDA-L2, объединяющую LLM и обучение с подкреплением для автоматической оптимизации ядер HGEMM. В серверном режиме метод превзошел torch.matmul на 28,7%, а библиотеку cuBLAS — на 26,0%. CUDA-L2 демонстрирует, что даже критически важные для производительности кернелы можно улучшить с помощью автоматизации на базе RL.

Ручная оптимизация матричного умножения сложна, так как разные размерности матриц (M, N, K) требуют различных стратегий. Используя скорость выполнения CUDA в качестве награды для RL, система автоматически оптимизирует кернелы через 1000 конфигураций. Эти конфигурации охватывают значения, используемые в слоях attention и FFN открытых моделей, таких как Qwen, Llama* и DeepSeek.

Для достижения результатов CUDA-L2 применяет продолженное претренирование на разнообразном CUDA-коде и метрики профилирования NCU. Система обнаружила эффективные техники, такие как паддинг входной матрицы нулями для соответствия ограничениям делимости. Также используется double-buffered подход, который выделяет два набора фрагментов регистров и чередует их в режиме ping-pong.

В серверном сценарии CUDA-L2 превзошла cuBLASLt-AutoTuning на 15,9%, хотя этот бейзлайн выбирает быстрейший алгоритм из 100 кандидатов. Текущая версия фреймворка сфокусирована на GPU A100, но разработана для широкой применимости. Работа по расширению на архитектуры Ada Lovelace, Hopper и Blackwell продолжается.

*Компании и продукты, признанные экстремистскими и запрещены в РФ.

Источник новости и обложки: arxiv.org

CUDA-L2 обошел cuBLAS: ускорение матричных вычислений на 26%