首页
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
GPU编程变天了。
英伟达宣布最新版CUDA 13.1,官方直接定性:这是自2006年降生以来最大的前进。
焦点转变是推出全新的CUDA Tile编程模子,闪开发者可以用Python写GPU内核,15行代码就能抵达200行CUDA C++代码的性能。
新闻一出,芯片界传奇人物Jim Keller连忙发问:
英伟达是不是亲手终结了CUDA的“护城河”?若是英伟达也转向Tile模子,AI内核将更容易移植到其他硬件上。
Jim Keller加入设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的”硅仙人”,他的判断在行业里相当有分量。
那么问题来了:CUDA这次究竟改了什么?为什么会被以为是”自毁长城”?
GPU编程范式从“线程”到“瓦片”
要明确这次更新的意义,得先回首一下古板CUDA编程有多折磨人。
已往20年,CUDA一直接纳SIMT(单指令多线程)模子,开发者写代码时,需要手动治理线程索引、线程块、共享内存结构、线程同步,每一个细节都要自己操心。
想要充分使用GPU性能,特殊是用上Tensor Core这类专用?,更是需要深挚的履历积累。
CUDA Tile彻底改变了这套玩法:
开发者不再需要逐线程地编写执行路径,而是把数据组织成Tile(瓦片),然后界说在这些Tile上执行什么运算。至于怎么把这些运算映射到GPU的线程、Warp和Tensor Core上,编译器和运行时会自动搞定。
就似乎NumPy之于Python。
英伟达为此构建了两个焦点组件:
CUDA Tile IR是一套全新的虚拟指令集,它在高级语言和硬件之间加了一层笼统,确;赥ile编写的代码能在差别代际的GPU上运行,从目今的Blackwell到未来的架构都能兼容。
cuTile Python则是面向开发者的接口,直接用Python写GPU内核,门槛一下子从“HPC专家“降到了”会写Python的数据科学家都可以干。
另外,这次更新还带来了一系列面向Blackwell的性能优化:
cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功效新增的Grouped GEMM API在MoE(混淆专家模子)场景下能实现高达4倍加速cuSOLVER的批处置惩罚特征剖析在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升开发者工具Nsight Compute新增了对CUDA Tile内核的性能剖析支持,可以把性能指标直接映射回cuTile Python源代码。
现在CUDA Tile仅支持Blackwell架构(盘算能力10.x和12.x),开发重点集中在AI算法上。英伟达体现未来会扩展到更多架构,并推出C++实现。
硅仙人的质疑:降低门槛是一把双刃剑
那么Jim Keller为什么说英伟达可能”终结了自己的护城河”?
要害就在于Tile编程模子不是英伟达独吞的。AMD、Intel以及其他AI芯片厂商的硬件,在底层架构上同样可以支持基于Tile的编程笼统。
已往CUDA难以移植,很洪流平上是由于SIMT模子与英伟达硬件深度绑定,开发者要针对详细的GPU架构手写优化代码。这些代码换到别家硬件上,要么跑不了,要么性能大打折扣。
但Tile模子自然具有更高的笼统条理。当开发者习惯了“只管界说Tile运算,硬件细节交给编译器”这种头脑方法后,理论上统一套算法逻辑更容易适配到其他支持Tile编程的硬件上。
正如Jim Keller所说:”AI内核将更容易移植。”
不过英伟达也思量了后手,CUDA Tile IR提供了跨代兼容性,但这种兼容性是建设在CUDA平台之上的。
开发者写的代码确实更容易移植了,但移植的目的是英伟达自家的差别代GPU,而非竞争敌手的硬件。
从这个角度看,CUDA代码可以从Blackwell无缝迁徙到下一代英伟达GPU,但要迁徙到AMD或Intel的平台上,依然需要重写。
不管护城河是加深照旧削弱,有一点是确定的:GPU编程的门槛确着实大幅降低。
已往能熟练驾驭CUDA的开发者是稀缺资源,会写Python的人一抓一大把,但能把代码优化到跑满Tensor Core的专家寥若晨星。
CUDA Tile和cuTile Python买通了这个瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。
大宗数据科学家和AI研究者以后可以直接上手写高性能GPU代码,不必再等HPC专家来资助优化。
参考链接:[1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware[2]https://x.com/jimkxa/status/1997732089480024498
《欧美一级A片色视频中文》,《Q8X2R7L1T4J5M9B6W3》小美女性爱车轮战
“国产,欧美,日韩第一页”
欧美先锋
……
12月10日
“久久水蜜桃亚洲av无码精品”再见了指挥大师~父亲与我的热情~
↓↓↓
12月10日,“虎爸”回应10岁女儿跑“全马”争议:不会影响我和孩子跑步的节奏,国产精品私密视频,潘金莲映画传媒,国产三极片,油管18黄
12月10日,(新春走基层)探访中国彝家第一村攀枝花市迤沙拉村,18岁禁止的网页,国产精品偷伦视频播放,小黄片视频免费在线观看,国产精品每天更新视频
12月10日,四张图片里的京津冀十年,欧洲操逼视频,久久久国产精品理论,天天狼天天透天干天天拍,白丝老师让我 了一节课
12月10日|封禁百万个高频访问IP 国博配合公安打击黄牛|国产区在线观看91精品|黄频免费网站|亚洲精品第一国产综合精品|欧美三级高清视频
12月10日|宁波携厦门唱好“双城记” 设立跨省共建蓝碳生态碳账户|在线韩国三级中文字幕HD无码|日本强奸网址|大桃子流牛奶|久久国产高清
12月10日|低价租房可能是陷阱?已有多人中招 如此中介快快避坑|999久久久国产精品免费|女生日男生软件|星野与光头哥高清视频|99久久99视频哪里……
12月10日,两部门:加快推进退役军人事务员职业技能等级认定,AV片免费全线在线观看,欧美熟妇A片,孕妇三级片黄色网站,亚洲欧美一二三区天天拍夜夜添
12月10日,西藏青少年民族传统马术赛在拉萨精彩上演,免费看A片网站在线观看,876av视频,仙女用脚放在男人的坤坤上,黄色福利院
12月10日|最高人民检察院依法对唐双宁决定逮捕|亚洲成年黄色|内射熟妇免费视频|二区中文字幕|av首页国产
12月10日,山东持续融入共建“一带一路” 打造境外经贸合作区,在线播放黄色视频在线观看你,梅花十三婬荡H肉奴H文,一本高清无码,操黄色网站观看
12月10日,创新动能十足 康弘药业2024年上半年营收同比增长19.46%,欧美老妇人与禽交,99久久精彩视频,欧美性色黑,高筱柔高达三部曲的背景故事简介
12月10日,最高人民检察院依法对唐双宁决定逮捕,欧美超黄视频,又黄又硬又湿的免费网站,免费黄色A片在线播放,亚洲AⅤ毛片一区二区三区
12月10日|港投公司与“港产独角兽”签合作协议 助力香港AI发展|wwwAV在线天堂|国产视頻在|中文字幕精品亚洲一区|国产九九精品99在线看
12月10日|最新研究:中国未来70年约60%省份灌溉用水量都会增加|国内精品综合九九久久精品|人人横人人操人人搞|女同性福利按摩片|A级毛片高清免费视频大全
12月10日|贵州榕江:金秋乡村美如画|国产精品秘 入口18禁猫咪|拉拉les p被T 视频|好硬好湿好爽好多水免费视频|精品三级网站在线网
蛇年春晚吉祥物正式公布,2023年游戏出圈事件|【台青在大陆】何冠奕:用“古老”形容云锦 只对一半|午夜理论片最新电影网|巨胸喷奶水视频WWW网|magnet下载 小白网|黄色视频最新
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
广东抢抓农时春耕忙 农业“黑科技”显身手
中央气象台继续发布暴雨蓝色预警 12省份局地有大到暴雨
大陆高校师生参访团参观沪尾炮台
“五一”假期中国国内旅游出游2.95亿人次
半导体市场迎转机
2024年台湾地区两项选举结果揭晓
智慧化发射场!120秒解锁神舟十九号载人飞船母港
(新春走基层)舟山春节启动“海岛快巴”通航 直升机航线保障春运出行
SHEIN蝉联2023全球购物APP下载量冠军 活跃用户和渗透持续提升
香港将深化与大湾区其他城市应急救援合作
国产高清精品在线看
欧美一级大片
人人操人人爱人人色
亚洲一区二区三区另类小说
91视频guochan
人妻一区二区三区视频
黄色一级操逼片
国产嫖妓一区二区三区AV
又长又大又硬又粗又视频
国模精品一区

闽公网安备 35010302000113号