首页
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
GPU编程变天了。
英伟达宣布最新版CUDA 13.1,官方直接定性:这是自2006年降生以来最大的前进。
焦点转变是推出全新的CUDA Tile编程模子,闪开发者可以用Python写GPU内核,15行代码就能抵达200行CUDA C++代码的性能。
新闻一出,芯片界传奇人物Jim Keller连忙发问:
英伟达是不是亲手终结了CUDA的“护城河”?若是英伟达也转向Tile模子,AI内核将更容易移植到其他硬件上。
Jim Keller加入设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的”硅仙人”,他的判断在行业里相当有分量。
那么问题来了:CUDA这次究竟改了什么?为什么会被以为是”自毁长城”?
GPU编程范式从“线程”到“瓦片”
要明确这次更新的意义,得先回首一下古板CUDA编程有多折磨人。
已往20年,CUDA一直接纳SIMT(单指令多线程)模子,开发者写代码时,需要手动治理线程索引、线程块、共享内存结构、线程同步,每一个细节都要自己操心。
想要充分使用GPU性能,特殊是用上Tensor Core这类专用?,更是需要深挚的履历积累。
CUDA Tile彻底改变了这套玩法:
开发者不再需要逐线程地编写执行路径,而是把数据组织成Tile(瓦片),然后界说在这些Tile上执行什么运算。至于怎么把这些运算映射到GPU的线程、Warp和Tensor Core上,编译器和运行时会自动搞定。
就似乎NumPy之于Python。
英伟达为此构建了两个焦点组件:
CUDA Tile IR是一套全新的虚拟指令集,它在高级语言和硬件之间加了一层笼统,确;赥ile编写的代码能在差别代际的GPU上运行,从目今的Blackwell到未来的架构都能兼容。
cuTile Python则是面向开发者的接口,直接用Python写GPU内核,门槛一下子从“HPC专家“降到了”会写Python的数据科学家都可以干。
另外,这次更新还带来了一系列面向Blackwell的性能优化:
cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功效新增的Grouped GEMM API在MoE(混淆专家模子)场景下能实现高达4倍加速cuSOLVER的批处置惩罚特征剖析在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升开发者工具Nsight Compute新增了对CUDA Tile内核的性能剖析支持,可以把性能指标直接映射回cuTile Python源代码。
现在CUDA Tile仅支持Blackwell架构(盘算能力10.x和12.x),开发重点集中在AI算法上。英伟达体现未来会扩展到更多架构,并推出C++实现。
硅仙人的质疑:降低门槛是一把双刃剑
那么Jim Keller为什么说英伟达可能”终结了自己的护城河”?
要害就在于Tile编程模子不是英伟达独吞的。AMD、Intel以及其他AI芯片厂商的硬件,在底层架构上同样可以支持基于Tile的编程笼统。
已往CUDA难以移植,很洪流平上是由于SIMT模子与英伟达硬件深度绑定,开发者要针对详细的GPU架构手写优化代码。这些代码换到别家硬件上,要么跑不了,要么性能大打折扣。
但Tile模子自然具有更高的笼统条理。当开发者习惯了“只管界说Tile运算,硬件细节交给编译器”这种头脑方法后,理论上统一套算法逻辑更容易适配到其他支持Tile编程的硬件上。
正如Jim Keller所说:”AI内核将更容易移植。”
不过英伟达也思量了后手,CUDA Tile IR提供了跨代兼容性,但这种兼容性是建设在CUDA平台之上的。
开发者写的代码确实更容易移植了,但移植的目的是英伟达自家的差别代GPU,而非竞争敌手的硬件。
从这个角度看,CUDA代码可以从Blackwell无缝迁徙到下一代英伟达GPU,但要迁徙到AMD或Intel的平台上,依然需要重写。
不管护城河是加深照旧削弱,有一点是确定的:GPU编程的门槛确着实大幅降低。
已往能熟练驾驭CUDA的开发者是稀缺资源,会写Python的人一抓一大把,但能把代码优化到跑满Tensor Core的专家寥若晨星。
CUDA Tile和cuTile Python买通了这个瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。
大宗数据科学家和AI研究者以后可以直接上手写高性能GPU代码,不必再等HPC专家来资助优化。
参考链接:[1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware[2]https://x.com/jimkxa/status/1997732089480024498
《呜哔涩漫免费》,《Q8X2R7L1T4J5M9B6W3》国产精品一区二区入口
“国产免费的精品熟女视频一区二区”
免费毛片一级观看
……
12月12日
“永久免费无码视频一区二区三区”时隔十八年的冷饭 P3R媒体评分解禁
↓↓↓
12月12日,中新健康丨开工成“特累”族 专家支招巧解“节后综合征”,91网站久久国产精品,日韩av免费aaa,國產乱侖视频在线,亚洲激情小说网
12月12日,最高检:前三季度起诉电信网络诈骗犯罪4.7万余人,人人澡人人模人人爽av,国产精品黄在线观看免费软件下载,色呦呦管方入口,人日人的一级视频
12月12日,茶专家:新中式茶饮助力中国茶叶消费升级,免费一级A片26分钟,我想看现在最漂亮姑娘黄色视频黄色网黄色网站黄色电影,Www.情色.cnm,日本欧美AⅤ激情
12月12日|辽宁省全力推进服务和融入全国统一大市场建设|久久久久亚洲Av片无码|日韩欧美黄色mmmll|八重神子精夜狂飙游戏漫画宁波摄影|国产呦精品系例
12月12日|阵阵醇香传百年 杭州下沙大麦烧守护“舌尖上的年味”|国产91一区在线|黄频免费网站|小男仆自愿露屁股给主人打|日本我与子乱视频无删减版
12月12日|(乡村行·看振兴)三峡坝区高山豆腐乳助力农民增收|丁香六月久久|色拍一区|亚洲一区二区三区www|黄色一级黄片视频……
12月12日,“网红主播”是员工还是伙伴?,国产精品 视频一区,全网最大的黄色网,日本黄大片国产欧美日本,国产精品原创AV导航
12月12日,老人供氧机断电生命垂危 新能源车变“生命充电桩”,中文图小说视频,成a人片在线观看,殴美在线视频,xoxoav
12月12日|2024中国民营企业投融资洽谈会在天津开幕|国产3p视频|91香蕉嫩草影院在线观看|久久综合综合久久最新网站|99re6在线视频精品免费绿色
12月12日,明年大中小学普遍开展人工智能应用,亚洲欧美中文日韩V二区,图片区偷拍区综合区小说区,激情小说激情视频激情图片,2020年黄片视频
12月12日,美国青年参观慕田峪长城,国产换妻肏屄视频,操逼综合,国产又黄又湿又大又免费的视频,免费 无码 国产变态在线观看
12月12日,一架载有两人的小型飞机在美国北加州海岸坠毁,在线WWW中文在线,亚洲欧洲日韩精品综合,特级黄逼久久,欧美日韩强奸片
12月12日|民进中央2024年参政议政年会在武汉开幕|久久国产72精品|日韩欧美视频一区二区在现看|97人人人人人操|翁虹《外卖情缘》
12月12日|祁连山国家公园野生动物救护繁育站成功放归2只猛禽|黄色视频在线观看免费MMM|综合视频区 图片区|免费拍拍视频网站|偷拍视频网站
12月12日|跪地的小德、复出的薛晨、首闯决赛的黄博凯……赛场上哪一幕让你难忘?|国产 18 秘 照片色桃|九九在线精品免费视频|爱爱网站视频|美女的㊙️让男人爽视频
王艺迪王曼昱会师决赛,韩国执政党反对弹劾尹锡悦|短道速滑世巡赛首站:中国队选手林孝埈男子500米摘铜|亚洲天堂A综合|96在线播放|黄色网站免费播|曰批视频免费播放免费下载
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
广播剧《我的乳娘》即将上线 讴歌胶东女性人间大爱
多家央企公告一季度“开门红”,战略性新兴产业投资加速
斯诺克世锦赛:卫冕冠军爆冷出局 张安达暂时落后
第六届海参产业发展大会暨2024世界海参产业(烟台)博览会举办
父母与启蒙教练眼中的刘洋:用天赋与坚持铸就卫冕之路
加强保护,使文物焕发新生
快速准确定位识别生物大分子 中国团队基于人工智能研究提出新方法
第七届“国家统一与民族复兴”研讨会在十堰举行
焦点访谈:跟着总书记上两会 高水平保护支撑高质量发展
奥利国际机场:高规格仪式迎贵宾
国产精品综合色区在线观看不卡
国产精品玖玖玖在线观看
男人 精xX高潮视频
日本视频免费观看
www.日本在线观看
人人爱人人添人人操
国产在线一级
黄的美女视频
美女和男生一起努力生产
久久国产精品特及毛片

闽公网安备 35010302000113号