首页
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
GPU编程变天了。
英伟达宣布最新版CUDA 13.1,官方直接定性:这是自2006年降生以来最大的前进。
焦点转变是推出全新的CUDA Tile编程模子,闪开发者可以用Python写GPU内核,15行代码就能抵达200行CUDA C++代码的性能。
新闻一出,芯片界传奇人物Jim Keller连忙发问:
英伟达是不是亲手终结了CUDA的“护城河”?若是英伟达也转向Tile模子,AI内核将更容易移植到其他硬件上。
Jim Keller加入设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的”硅仙人”,他的判断在行业里相当有分量。
那么问题来了:CUDA这次究竟改了什么?为什么会被以为是”自毁长城”?
GPU编程范式从“线程”到“瓦片”
要明确这次更新的意义,得先回首一下古板CUDA编程有多折磨人。
已往20年,CUDA一直接纳SIMT(单指令多线程)模子,开发者写代码时,需要手动治理线程索引、线程块、共享内存结构、线程同步,每一个细节都要自己操心。
想要充分使用GPU性能,特殊是用上Tensor Core这类专用?,更是需要深挚的履历积累。
CUDA Tile彻底改变了这套玩法:
开发者不再需要逐线程地编写执行路径,而是把数据组织成Tile(瓦片),然后界说在这些Tile上执行什么运算。至于怎么把这些运算映射到GPU的线程、Warp和Tensor Core上,编译器和运行时会自动搞定。
就似乎NumPy之于Python。
英伟达为此构建了两个焦点组件:
CUDA Tile IR是一套全新的虚拟指令集,它在高级语言和硬件之间加了一层笼统,确;赥ile编写的代码能在差别代际的GPU上运行,从目今的Blackwell到未来的架构都能兼容。
cuTile Python则是面向开发者的接口,直接用Python写GPU内核,门槛一下子从“HPC专家“降到了”会写Python的数据科学家都可以干。
另外,这次更新还带来了一系列面向Blackwell的性能优化:
cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功效新增的Grouped GEMM API在MoE(混淆专家模子)场景下能实现高达4倍加速cuSOLVER的批处置惩罚特征剖析在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升开发者工具Nsight Compute新增了对CUDA Tile内核的性能剖析支持,可以把性能指标直接映射回cuTile Python源代码。
现在CUDA Tile仅支持Blackwell架构(盘算能力10.x和12.x),开发重点集中在AI算法上。英伟达体现未来会扩展到更多架构,并推出C++实现。
硅仙人的质疑:降低门槛是一把双刃剑
那么Jim Keller为什么说英伟达可能”终结了自己的护城河”?
要害就在于Tile编程模子不是英伟达独吞的。AMD、Intel以及其他AI芯片厂商的硬件,在底层架构上同样可以支持基于Tile的编程笼统。
已往CUDA难以移植,很洪流平上是由于SIMT模子与英伟达硬件深度绑定,开发者要针对详细的GPU架构手写优化代码。这些代码换到别家硬件上,要么跑不了,要么性能大打折扣。
但Tile模子自然具有更高的笼统条理。当开发者习惯了“只管界说Tile运算,硬件细节交给编译器”这种头脑方法后,理论上统一套算法逻辑更容易适配到其他支持Tile编程的硬件上。
正如Jim Keller所说:”AI内核将更容易移植。”
不过英伟达也思量了后手,CUDA Tile IR提供了跨代兼容性,但这种兼容性是建设在CUDA平台之上的。
开发者写的代码确实更容易移植了,但移植的目的是英伟达自家的差别代GPU,而非竞争敌手的硬件。
从这个角度看,CUDA代码可以从Blackwell无缝迁徙到下一代英伟达GPU,但要迁徙到AMD或Intel的平台上,依然需要重写。
不管护城河是加深照旧削弱,有一点是确定的:GPU编程的门槛确着实大幅降低。
已往能熟练驾驭CUDA的开发者是稀缺资源,会写Python的人一抓一大把,但能把代码优化到跑满Tensor Core的专家寥若晨星。
CUDA Tile和cuTile Python买通了这个瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。
大宗数据科学家和AI研究者以后可以直接上手写高性能GPU代码,不必再等HPC专家来资助优化。
参考链接:[1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware[2]https://x.com/jimkxa/status/1997732089480024498
《美国黄片女人人人人人人人》,《Q8X2R7L1T4J5M9B6W3》亚洲有码在线播放
“美女大胆一区二区”
88888888欧美
……
12月10日
“A片性生活视频”Gumayusi放话LCK不会输给LPL
↓↓↓
12月10日,天津海关退运483吨液态洋垃圾,女女女女HSHDHDHDHDHDHDGDGD,片黄a啊啊啊,免费播黄网站,91午夜福利在线观看无码
12月10日,浙江温州乡村艺术团探索城乡文化融合“新版本”,国产精品欧美劲爆日韩一区二区,黄黄黄黄aaaa片,无限臀山最新发布页,鸥美精品一区二区
12月10日,北京大学举行学习贯彻习近平总书记五四重要讲话精神十周年座谈会,Julia黄色网站,亚洲熟妇无码久久精品,51黑料不打烊,日韩AAA大黄片
12月10日|西藏拉萨:布达拉宫脚下“藏戏演出季”引游人|www.日韩 欧美|2023偷拍老阿婆合集|日韩AV人人|A片无码视频网站
12月10日|外媒:巴基斯坦外交部宣布召回驻伊朗大使|免费视频干干干干|欧美一级性视频|国产精品iGAO视频 视色|欧美熟妇互舔20p
12月10日|(巴黎奥运)体操“小花”欧钰珊巴黎留憾 母亲:她从没打过退堂鼓|久久99精品国产一级毛片|日韩精品在线观看视频|老狼友在线视频|日本视频在线免费网站……
12月10日,道中华丨《五马图》里隐藏着的大宋政治风云?,亚洲欧洲性爱,美女被咬小头头漫画大全,亚日日日日日视频,成年午夜网站在线
12月10日,外交部:维护全球产供链韧性和稳定符合国际社会的共同利益,欧美综合精品,黄片免费福利视频,张元英 喷水自慰,涩黄
12月10日|“走进新国企·安澜江河的水电铁军”主题采访活动在广西南宁启动|日本超碰97人人爽人人爱|无码屋精彩绝伦|福利姬国产精品一区在线|欧美一级a作爰视频
12月10日,踏“雪”寻梅 广州萝岗香雪公园梅花盛放,黄色视频免费看的网站,会所猛男裸体手慰Gay,无码毛片一区二区三区视频,新黄色视频
12月10日,广州市人大常委会副主任于绍文被查,十八岁操逼视频,最近更新国语字幕大全在线视频,欧美日韩国产性爱短片在线不卡,中国三级片视频软件
12月10日,瑞银资产管理报告:中国股市的投资机遇乐观,AA级片在线观看,www.黄色网址在线观看,影音先锋亚洲精品自拍日本,中出羞羞在线啪啪
12月10日|浙江大学师生自发悼念校友李政道 追忆与其过往|www.A黄色视频|母猪阁|av付费在线网站|韩国美女互摸对方的乳头视频
12月10日|【中国少年说·可爱的中国】00后网球“金花”绽放红土场,薪火相传创造历史|18岁禁看黄片|亚洲美女裸体MⅤ毛片|自拍偷拍午夜福利视频|日本性交网站
12月10日|从磨憨看政协力量如何助力国际口岸建设迸发活力|美女的奶头嗯∽啊叫的视频|黄片vs毛片|二次元裸体 网站|花臂夫夫资源在线观看免费版中文版
樱桃小丸子声优去世,足球报:对阵巴林国足右路将大换血|同比增长13.28% 11月我国期货市场交易额62.19万亿元|在线观看黄色网站视频a|95视频在线观看入口网页|XXXX77 HD国|黄色网站入口在线
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
不满足于当“合格生” 勇于争当“优等生”
EWD(2024)东方战龙世界拳王争霸赛在深圳收官
青海修复郭里木墓地出土棺板画 重现唐代工匠艺术水平
广西帆船赛事“出海” 深化与东盟体育交流合作
新华社记者说|今年两会,习近平尤为关切这件“新”事
让世界看到一个可信、可爱、可敬的中国(和音)
2023年度中国马术场地障碍年终总决赛在穗落幕
印度盗窃团伙偷走2200枚马拉松奖牌,原因竟是……
《三十三岁的决心》出版 青年作家宇澄书写当代女性
北京青龙峡景区延迟开放
人人插人人透人人射人人色人人干
博雅和他的榜一大哥视频
免费观看黃色A片一级视频一
美女的隐私秘 视频播放免费
野原琳被C到哭 视频
豆花视频满18进入
美女露出奶头18奶水喷高潮网站
农夫导航
内窥镜情趣视频18
在线观看黄A免费网站免费

闽公网安备 35010302000113号