浙江省网站建设_网站建设公司_搜索功能_seo优化
2026/1/1 14:02:05 网站建设 项目流程

用ComputeEval 2025.2对AI生成的CUDA代码进行基准测试

AI编码助手能否编写高效的CUDA代码?为了衡量和提升它们的能力,我们创建了ComputeEval——一个用于评估AI模型和智能体在CUDA编程任务上表现的、强大且开源的基准测试。

几个月前,我们发布了ComputeEval的第一个版本。今天,我们推出了其首次重大扩展,新增了超过100个CUDA挑战。

通过此次更新,数据集已扩展到总计232个CUDA和CUDA计算核心库(CCCL)问题。我们有意通过增加更困难的挑战来提高标准,这些挑战要求大语言模型使用现代CUDA特性,例如张量核心、高级共享内存模式以及warp级原语。新问题测试了模型正确编排CUDA图、流和事件等特性的能力,所有挑战都基于动态模拟等现实应用场景。

CUDA编程中的大语言模型性能

我们的团队评估了多个领先的大语言模型在ComputeEval上的表现,以建立基准性能指标并了解AI辅助CUDA编程的现状(表1)。

表1. 顶尖大语言模型在ComputeEval 2025.1和2025.2上的Pass@1准确率。最新版本引入了232个新的CUDA编程挑战,为AI辅助编码提供了一个更严苛的基准。

模型 ComputeEval 2025.2 (232个新问题) pass@1 ComputeEval 2025.1 (128个问题) pass@1
GPT-5 (medium) 0.5819 0.61
Claude Sonnet 4.0 0.5517 0.64
gpt-oss-20B (high) 0.5474 N/A
gpt-oss-120b (high) 0.5302 N/A
Claude Opus 4.0 0.5216 N/A
DeepSeek-R1 0.4397 0.55
gpt-oss-120b (medium) 0.4224 N/A
gpt-oss-20b (medium) 0.4224 N/A
gpt-oss-120b (low) 0.4052 N/A
DeepSeek-V3.1 0.3750 0.44
Llama 4 Maverick 17B 128E 0.3448 0.47
Llama 3.1 405B 0.3405 0.4
gpt-oss-20B (low) 0.3319 0.41

我们观察到,所有模型的得分在迁移到ComputeEval 2025.2后都有所下降。这并不表明模型能力在下降,而是反映出基准测试本身变得更具有挑战性。通过每次发布,我们都在为AI设定更高的标准,推动它展现出对加速计算细微之处的更深入理解。

后续计划与参与方式

我们将继续扩展数据集以及评估框架的功能。目前已经在开展将ComputeEval覆盖范围扩展到更多CUDA-X库的工作,包括cuBLAS、CUTLASS、cuDNN、RAPIDS等。我们邀请更广泛的高性能计算和AI社区来贡献和协作。可以在GitHub上探索代码,并在Hugging Face上访问数据集。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询