首页
几个小时前,NVIDIA CUDA Toolkit 13.1 正式宣布,英伟达官方体现:「这是 20 年来最大的一次更新。」
英伟达社媒
这个自 2006 年 CUDA 平台降生以来规模最大、最周全的更新包括:
NVIDIA CUDA Tile 的宣布,这是英伟达基于 tile 的编程模子,可用于笼统化专用硬件,包括张量焦点。
Runtime API exposure of green contexts(是指把所谓的 Green Context「指轻量级的、可并发调理的上下文或执行情形」袒露给外部挪用者使用。)
NVIDIA cuBLAS 中的双精度和单精度仿真。
一本完全重写的 CUDA 编程指南 ,专为 CUDA 新手和高级程序员设计。
下面我们就来详细看看。
CUDA Tile
CUDA Tile 是 NVIDIA CUDA Toolkit 13.1 最焦点的更新。它是一种基于 tile 的编程模子,能够以更高的条理编写算法,并笼统化专用硬件(例如张量焦点)的细节。
英伟达社媒
解读 CUDA Tile 的焦点看法
英伟达博客诠释说:CUDA Tile 可闪开发者在高于 SIMT(单指令多线程)的层级编写 GPU 核函数。
在现在的 SIMT 编程中,开发者通常通过划分数据并界说每个线程的执行路径来指定核函数。
而借助 CUDA Tile,开发者可以提升代码的笼统层级,直接指定被称为「Tile」的数据块。只需指定要在这些 Tile 上执行的数学运算,编译器和运行时情形会自动决议将事情负载分发到各个线程的最佳方法。
这种 Tile 模子屏障了挪用 Tensor Core 等专用硬件的底层细节,并且 Tile 代码将能够兼容未来的 GPU 架构。
CUDA 13.1 包括两个用于 Tile 编程的组件:
CUDA Tile IR:一种用于 NVIDIA GPU 编程的全新虚拟指令集架构(ISA)。
cuTile Python:一种新的领域特定语言(DSL),用于在 Python 中编写基于数组和 Tile 的核函数。
底层细节
编译的 Tile 路径可以融入完整的软件栈,与 SIMT 路径对应。
这是该软件的首个版本,其包括以下注重事项:
CUDA Tile 仅支持 NVIDIA Blackwell(盘算能力 10.x 和 12.x)系列产品。未来的 CUDA 版本将扩展对更多架构的支持。
现在的开发重点聚焦于 AI 算法的 Tile 编程。英伟达体现在未来的 CUDA 版本中将一连增添更多特征、功效并提升性能。
英伟达妄想在即将宣布的 CUDA 版本中引入 C++ 实现。
为什么要为 GPU 引入 Tile 编程?
CUDA 向开发者提供了单指令多线程(SIMT)硬件和编程模子。这种模式要求(同时也允许)开发者以最大的无邪性和针对性,对代码的执行方法举行细粒度控制。然而,编写高性能代码往往需要支付重大的心力,尤其是在需要适配多种 GPU 架构的情形下。
只管已有许多库(如 NVIDIA CUDA-X 和 NVIDIA CUTLASS)旨在资助开发者挖掘性能,但CUDA Tile 引入了一种比 SIMT 层级更高的新型 GPU 编程方法。
随着盘算事情负载的演进,特殊是在 AI 领域,张量已成为一种基础数据类型。NVIDIA 开发了专门用于处置惩罚张量的硬件,例如 NVIDIA Tensor Core(TC)和 NVIDIA Tensor Memory Accelerator(TMA),它们现已成为每个新 GPU 架构中不可或缺的组成部分。
硬件越重大,就越需要软件来资助驾驭这些能力。CUDA Tile 对 Tensor Core 及其编程模子举行了笼统,使得使用 CUDA Tile 编写的代码能够兼容目今及未来的 Tensor Core 架构。
基于 Tile 的编程方法允许开发者通过指定命据块(即 Tile),然后界说在这些 Tile 上执行的盘算来编写算法?⒄呶扌柙谥鹪氐牟忝嫔仙瓒ㄋ惴ǖ闹葱邢附冢罕嘁肫骱驮诵惺苯χ贸头U庑┦虑。
下图展示了随 CUDA Tile 推出的 Tile 模子与 CUDA SIMT 模子之间的看法差别。
Tile 模子与 CUDA SIMT 模子之间的看法差别
Tile 模子(左)将数据划分为多个块,编译器将其映射到线程。单指令多线程(SIMT)模子(右)将数据同时映射到块和线程
这种编程范式在 Python 等语言中很常见,在这些语言中,像 NumPy 这样的库可以闪开发者指定矩阵等数据类型,然后用简朴的代码指定并执行批量操作。
CUDA 软件更新
以下是本次 CUDA 版本更新中包括的其他主要软件刷新:
运行时对 Green Context(绿色上下文)的支持
CUDA 中的 Green Context 是一种轻量级的上下文形式,可作为古板 CUDA 上下文的替换计划,为开发者提供更细粒度的 GPU 空间划分与资源分派能力。
自 CUDA 12.4 起,它们已在驱动 API 中提供;而从本版本最先,Green Context 也正式在运行时 API 中开放使用。
Green Context 使用户能够界说和治理 GPU 资源的自力分区,主要是 Streaming Multiprocessors(SM)。你可以将特定命目的 SM 分派给某个特定的 Green Context ,然后在该 context 所拥有的资源规模内启动 CUDA kernel 并治理只在此 context 内运行的 stream。
一个典范的应用场景是:你的程序中有部分代码对延迟极为敏感,并且需要优先于其他所有 GPU 事情执行。通过为这段代码单独建设一个 Green Context 并分派 SM 资源,而将剩余的 SM 分派给另一个 Green Context 处置惩罚其他使命,你就能确保始终有可用的 SM 供高优先级盘算使用。
CUDA 13.1 还引入了越发可定制的 split () API?⒄呖梢酝ü庖唤涌诠菇ù饲靶枰啻 API 挪用才华完成的 SM 分区,并且可以设置事情行列,从而镌汰差别 Green Context 之间提交使命时爆发的伪依赖(false dependencies)。
有关这些功效及 Green Context 的更多信息,请拜见 CUDA Programming Guide。
CUDA 编程指南地点:https://docs.nvidia.com/cuda/cuda-programming-guide/04-special-topics/green-contexts.html
CUDA 多历程效劳(MPS)更新
CUDA 13.1 为多历程效劳带来了多项新特征和功效。有关这些新功效的完整信息,请参阅 MPS 文档。以下是部分亮点内容:
内存局部性优化分区
内存局部性优化分区(Memory locality optimization partition,MLOPart)是 NVIDIA Blackwell 系列(盘算能力 10.0 和 10.3,为架构版本号)及更新 GPU 上提供的一项特征。
该功效允许用户建设专门优化内存局部性的 CUDA 装备。MLOPart 装备基于统一块物理 GPU 派生而来,但泛起为多个自力装备,每个装备拥有更少的盘算资源和更小的可用内存。
在盘算能力 10.0 和 10.3 的 GPU 上,每块 GPU 都包括两个分区。
当在 GPU 上启用 MLOPart 时,每个分区都会作为一个自力的 CUDA 装备泛起,并具有其对应的盘算与内存资源。
现在,MLOPart 仅支持 NVIDIA B200 与 NVIDIA B300 系列产品。未来的 CUDA 宣布版本将加入对 NVIDIA GB200 与 NVIDIA GB300 系列的支持。
静态流式多处置惩罚器(SM)分区
作为 MPS 中现有的动态执行资源供应(provisioning)的一种替换计划,静态流式多处置惩罚器(SM)分区是针对 NVIDIA Ampere 架构(盘算能力 8.0)及更新 GPU 的一项特征,它为 MPS 客户端提供了一种建设独吞 SM 分区的要领。
该模式通过使用 -S 或 --static-partitioning 标记启动 MPS 控制守护历程来启用,其主要目的是提供确定性的资源分派,并改善 MPS 客户端之间的隔离性。分区的基本单位是一个「Chunk」(块),其巨细凭证 GPU 架构而异 —— 例如,在 Hopper(盘算能力 9.0)及更新的自力 GPU 上,一个 Chunk 包括 8 个 SM。
cuBLAS 中的双精度和单精度模拟
虽然严酷来说这不属于 CUDA 13.1 的更新,但 NVIDIA CUDA Toolkit 13.0 中的 cuBLAS 更新引入了新的 API 和实现,旨在提升双精度(FP64)矩阵乘法(matmul)的性能。
这是通过在 NVIDIA GB200 NVL72 和 NVIDIA RTX PRO 6000 Blackwell Server Edition 等 GPU 架构的 Tensor Core 上举行浮点(FP)模拟来实现的。
开发者工具
开发者工具是 CUDA 平台的主要组成部分。此次宣布带来了多项立异和功效增强,包括:
CUDA Tile 核函数性能剖析工具
在摘要页新增「Result Type」(效果类型)列,用于区分 Tile 核函数与 SIMT 核函数。
详情页新增「Tile Statistics」(Tile 统计)部分,总结 Tile 维度和主要管线(pipeline)的使用率。
源码页支持将指标映射到高层级的 cuTile 核函数源码。
源码页
Nsight Compute 剖析,重点展示了剖析输出中的 Tile Statistics 部分
此次宣布的 Nsight Compute 还增添了对装备端启动的图(device-launched graphs)中 CUDA 图节点的剖析支持,并刷新了源码页导航,为编译器天生和用户天生的标签提供了可点击的链接。
编译时修补
NVIDIA Compute Sanitizer 2025.4 通过 -fdevice-sanitize=memcheck 编译器标记,增添了对 NVIDIA CUDA 编译器(NVCC)编译时修补(patching)的支持。这种修补增强了内存过失检测能力,并提升了 Compute Sanitizer 的性能。
编译时插桩(instrumentation)可将过失检测直接集成到 NVCC 中,从而实现更快的运行速率,并通过高级的基址 - 界线剖析(base-and-bounds analysis)捕获更隐藏的内存问题(如相邻分派间的不法会见)。这意味着开发者可以在不牺牲速率的情形下调试内存问题,运行更多测试并坚持生产力。现在,该功效仅支持 memcheck 工具。
要使用此新功效,请使用如下 NVCC 标记编译代码:
nvcc -fdevice-sanitize=memcheck -o myapp myapp.cu
然后使用 memcheck 工具运行你的应用:
compute-sanitizer --tool memcheck myapp
NVIDIA Nsight Systems
NVIDIA Nsight Systems 2025.6.1 与 CUDA Toolkit 13.1 同步宣布,带来了多项新的追踪功效:
系统级 CUDA 追踪:--cuda-trace-scope 可开启跨历程树或整个系统的追踪。
CUDA 主机函数追踪:增添了对 CUDA Graph 主机函数节点和 cudaLaunchHostFunc () 的追踪支持,这些函数在主机上执行并会壅闭流(stream)。
CUDA 硬件追踪:在支持的情形下,基于硬件的追踪现在成为默认模式;使用 --trace=cuda-sw 可恢复为软件模式。
Green Context 时间轴行现在会在工具提醒中显示 SM 分派情形,资助用户明确 GPU 资源使用率。
数学库
焦点 CUDA 工具包数学库的新功效包括:
NVIDIA cuBLAS:一项全新的实验性 API,支持 Blackwell GPU 的分组 GEMM 功效,并兼容 FP8 和 BF16/FP16 数据类型。针对上述数据类型,支持 CUDA 图的分组 GEMM 提供了一种无需主机同步的实现方法,其装备端形状可实现最高 4 倍的加速,优于 MoE 用例中的多流 GEMM 实现。
NVIDIA cuSPARSE:一种新的希罕矩阵向量乘法 (SpMVOp) API,与 CsrMV API 相比性能有所提升。该 API 支持 CSR 名堂、32 位索引、双精度以及用户自界说的后缀。
NVIDIA cuFFT:一套名为 cuFFT 装备 API 的全新 API,提供主机函数,用于在 C++ 头文件中盘问或天生装备功效代码和数据库元数据。该 API 专为 cuFFTDx 库设计,可通过盘问 cuFFT 来天生 cuFFTDx 代码块,这些代码块可以与 cuFFTDx 应用程序链接,从而提升性能。
针对新的 Blackwell 架构,现已推出性能更新。用户可选摘要害 API 举行更新,并审查性能更新详情。
cuBLAS Blackwell 性能
CUDA Toolkit 12.9 在 NVIDIA Blackwell 平台上引入了块缩放的 FP4 和 FP8 矩阵乘法。CUDA 13.1 增添了对这些数据类型和 BF16 的性能支持。图 2 显示了在 NVIDIA Blackwell 和 Hopper 平台上的加速比。
在 NVIDIA Blackwell 和 Hopper 平台上的加速比
cuSOLVER Blackwell 性能
CUDA 13.1 继续优化用于特征剖析的批处置惩罚 SYEVD 与 GEEV API,并带来了显著的性能增强。
其中,批处置惩罚 SYEV(cusolverDnXsyevBatched) 是 cuSOLVER 中 SYEV 例程的统一批处置惩罚版本,用于盘算对称/Hermitian 矩阵的特征值与特征向量,很是适合对大宗小矩阵举行并行求解的场景。
图 3 展示了在批巨细为 5,000(矩阵行数 24–256)的测试效果。与 NVIDIA L40S 相比,NVIDIA Blackwell RTX Pro 6000 Server Edition 实现了约 2 倍的加速,这与预期的内存带宽提升相吻合。
在批巨细为 5000(矩阵行数 24–256)的测试效果
关于复数单精度和实数单精度两类矩阵,当行数N = 5时,加速比约为1.5×,并随着行数增大逐渐提升,在N = 250 时抵达 2.0×。
图 4 显示了 cusolverDnXgeev (GEEV) 的性能加速比,该函数用于盘算一样平常(非对称)浓密矩阵的特征值和特征向量。GEEV 是一种混淆 CPU/GPU 算法。单个 CPU 线程认真在 QR 算法中执行高效的早期降阶处置惩罚,而 GPU 则处置惩罚其余部分。图中显示了矩阵巨细从 1,024 到 32,768 的相对性能加速比。
cusolverDnXgeev (GEEV) 的性能加速比
当矩阵行数n = 5000时,加速比约为1.0,并随着矩阵规模增大逐渐提升,在n = 30000 时抵达约 1.7。
NVIDIA CUDA 焦点盘算库
NVIDIA CUDA Core 盘算库 (CCCL) 为 CUB 带来了多项立异和增强功效。
确定性浮点运算简化
由于浮点加法不具备连系律,cub::DeviceReduce 历史上只能包管在统一 GPU 上每次运行获得位上完全相同的效果。这被实现为一个两遍算法。
作为 CUDA 13.1 的一部分, NVIDIA CCCL 3.1 提供了两个特另外浮点确定性选项,您可以凭证这些选项在确定性和性能之间举行权衡。
不包管:使用原子操作举行单次归约。这不可包管提供位上完全相同的效果。
GPU 间:基于 Kate Clark 在 NVIDIA GTC 2024 大会上演讲中可复现的降维效果。效果始终逐位相同。
可以通过标记位设置确定性选项,如下面的代码所示。
演示代码
数据比照
更便捷的单相 CUB API
险些所有 CUB 算法都需要暂时存储空间作为中心暂存空间。已往,用户必需通过两阶段挪用模式来盘问和分派须要的暂时存储空间,若是两次挪用之间转达的参数纷歧致,这种模式既繁琐又容易蜕化。
CCCL 3.1 为一些接受内存资源的 CUB 算法添加了新的重载,从而用户可以跳过暂时存储盘问 / 分派 / 释放模式。
演示代码
CUDA Tile 资源链接:https://developer.nvidia.com/cuda/tile
CUDA Toolkit 13.1 下载地点:https://developer.nvidia.com/cuda-downloads
https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware
https://developer.nvidia.com/blog/nvidia-cuda-13-1-powers-next-gen-gpu-programming-with-nvidia-cuda-tile-and-performance-gains
https://x.com/NVIDIAAIDev/status/1996976702732620271
https://developer.nvidia.com/blog/simplify-gpu-programming-with-nvidia-cuda-tile-in-python
? THE END
本文来自微信公众号“机械之心”,36氪经授权宣布。
《熟妇嫩穴在线视频》,《Q8X2R7L1T4J5M9B6W3》97超碰在线播放
“抖阴下载地址最新”
国产性受XXXX喷水
……
12月09日
“国内精品福利视频”李维嘉为谢娜庆生
↓↓↓
12月09日,【巴黎奥运会】张雨霏:希望下届奥运会中国队男女混合泳接力登顶世界第一,久久九九精品视频,久一区在线观看视频,污污黄色网站,蛙漫免费漫画官方版正版入口官方版下载
12月09日,广东梅大高速茶阳路段塌方灾害首位伤员出院 系15岁男生,视频勒杀pkfVK,国产大学生稀缺视频盗摄,亚洲性生活av,免费视频在线色中文
12月09日,传统项目更添“文艺范” 端午新潮消费热力涌动,最牛A片视频网站,淄博淋浴房厂家用小鲤营销导航,朋友的校花老婆,声优初体验精品午夜亚洲成人一区
12月09日|冠军中国·青春接力|高铁“风火轮”如何炼成?|小圈导航站|欧美熟妇ZOZOtv|亚州色色色|玖玖爱在线精品视频6
12月09日|中国驻美大使谢锋:中国发展是更高质量、更有效率、更加公平、更可持续的发展|超级乱婬伦丝袜老师|久章草在线无码视频网站|中日韩高清无专码区202169|在线黄色地址
12月09日|国际人士分享新疆之旅:多元文化令人神往|视频一区 小说专区 图片专区|未满十八岁禁止进入亚洲黄色|国产精品三级不卡电影|国产影院福利……
12月09日,展望2024年A股市场 多家外资机构给出积极预判,809黄片,国产又黄又刺激又高潮的网站,毛片一级女人影院草草,91超碰新网址
12月09日,山西古建筑100问——纯阳宫为什么被建成“山西古建筑博物馆”?,欧美人与动性行为视频,91人人妻人人操,美女大黄大色一级特级毛片,www. 自拍刻工厂.com
12月09日|文化中国行·博物馆里见中国|4000余年的漫长等待,只为这一场相遇……|日本在线色视频|91自拍视频在线播放|女婬阁网站|国产亚洲精品在人成1页
12月09日,2024浙江·台湾合作周开幕,嗯啊视频网站,黑人一级粗又长在线播放,国产激情黄色网站专区视频,自慰喷水在线
12月09日,巴西里约州暴雨已致11人死亡 里约市宣布进入紧急状态,ChinesefemdomXXXⅩHD,程潇裸乳被 白浆喷了一床,小舞被草,一级a视频在线观看免费
12月09日,云南“夜经济”从城市延绵到乡村 “小集市”里有“大民生”,欧美激情AA级免费观看,91福利日韩精选,免费看无码黄片大全在线观看啊啊啊啊啊啊啊啊,在线无码视频一区
12月09日|航拍“世界一绝”悬空寺:高于地面50余米 让人如临深渊|激情欧美一区|《歪歪色漫》入口免费|超碰h|凉森玲梦绝顶潮喷无码
12月09日|护好湿地资源 释放生态红利(锚定现代化 改革再深化)|国产亚卅久久久久久久|免费黄黄视频网站|18分钟处破好痛哭叫|老头扒开粉嫩的小缝亲吻莫娜图片
12月09日|“北上”港澳单牌车突破150万辆次|亚洲黄色网址在线|日本h黄色视频在线|边跟别人边给老公打电话|强奸乱伦终合视频
鹿角男孩 第三季,博德3涌现巴尔领域大神|改善经营主体预期 增强发展内生动力(评论员观察)|6080新觉伦国产AA午夜视频|看美女被操的网站网页|黄色视频免费播放网站|欧美性爱区在线
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
广州今年将建设百个高质量就业社区(村)
习近平抵达巴黎 开始对法国进行国事访问
广东举办“南粤扶残·艺海友爱”暨国际残疾人日活动
北京启动商品住房“以旧换新” 支持居民合理梯度置业需求
(身边的变化)中蒙边境数千牧民的“电力保姆”: 二十年见证边疆变化
透过数据看信心 中国经济增长潜力不断释放
中国A股周三“先抑后扬” 主要股指悉数飘红
通讯:沸腾的中国第七大沙漠,沸腾的“五一”
职业伤害保障怎样“保住”新职业?
全过程人民民主的价值意蕴与效能保障
成年人免费视频在线播放
男女c🔞黄㊙️❌P站视频
秀人网啪啪视频
乱子精品无码一区二区三区
爆乳内射
能看免费的黄色网站
144036.com
亚州操B
久久岛国一级毛片
草青青社区

闽公网安备 35010302000113号