Команда DeepReinforce представила систему CUDA-L2, объединяющую LLM и обучение с подкреплением для автоматической оптимизации ядер HGEMM. В серверном режиме метод превзошел torch.matmul на 28,7%, а библиотеку cuBLAS — на 26,0%. CUDA-L2 демонстрирует, что даже критически важные для производительности кернелы можно улучшить с помощью автоматизации на базе RL.
Ручная оптимизация матричного умножения сложна, так как разные размерности матриц (M, N, K) требуют различных стратегий. Используя скорость выполнения CUDA в качестве награды для RL, система автоматически оптимизирует кернелы через 1000 конфигураций. Эти конфигурации охватывают значения, используемые в слоях attention и FFN открытых моделей, таких как Qwen, Llama* и DeepSeek.
Для достижения результатов CUDA-L2 применяет продолженное претренирование на разнообразном CUDA-коде и метрики профилирования NCU. Система обнаружила эффективные техники, такие как паддинг входной матрицы нулями для соответствия ограничениям делимости. Также используется double-buffered подход, который выделяет два набора фрагментов регистров и чередует их в режиме ping-pong.
В серверном сценарии CUDA-L2 превзошла cuBLASLt-AutoTuning на 15,9%, хотя этот бейзлайн выбирает быстрейший алгоритм из 100 кандидатов. Текущая версия фреймворка сфокусирована на GPU A100, но разработана для широкой применимости. Работа по расширению на архитектуры Ada Lovelace, Hopper и Blackwell продолжается.
*Компании и продукты, признанные экстремистскими и запрещены в РФ.
Источник новости и обложки: arxiv.org