首页
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理效劳效率的焦点瓶颈。自回归天生的特征使得模子必需存储历史 token 的 key-value 状态(即 KV cache)以阻止重复盘算,但 KV cache 的显存占用随着上下文长度的增添而膨胀,带来显著的内存瓶颈。
已往两年,关于 KV cache 的优化事情爆炸式增添,包括调理、迁徙、压缩等战略层出不穷。然而,现有综述主要聚焦于 LLM 推理或效劳的整体效率,大多仅将 KV cache 作为其中一个子?樽骷蛞致。
近期,来自墨尔本大学和华中科技大学的研究者们宣布了一篇深度综述,从MLSys 的头脑出发,用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化要领举行了系统性梳理与深入剖析,并将相关资源整理成了一连维护的 Awesome 资源库,利便研究者与从业职员快速定位与落地。
论文地点: https://doi.org/10.36227/techrxiv.176046306.66521015/v3项目地点: https://github.com/jjiantong/Awesome-KV-Cache-Optimization
什么是「 sKis」?
为了提供更聚焦的视角和明确,作者们首先在综述中界说了sKis的界线:在推理效劳阶段,以 KV cache 为焦点优化工具,在不依赖模子重训或结构修改的条件下,提升吞吐、延迟等焦点系统指标。
从「系统行为」看 KV Cache
聚焦于 sKis,该综述立异性地提出以系统行为的视角来组织 KV cache 优化手艺:不是按详细流程、框架、算法来划分,而是按优化战略在系统中爆发的时间、空间、结构三个维度的行为来划分,从而更容易对齐工程实现与组合战略。
执行与调理(时间维度):KV 什么时间被会见和盘算?该分类关注执行历程与调理。例如设计以 KV 为中心的调理战略,接纳流水线来掩饰延迟,或者凭证差别硬件的特征适配操作等。安排与迁徙(空间维度):KV 放在那里、怎样迁徙?该分类关注数据的存储。例如在 GPU、CPU、SSD 组成的存储层级中怎样使热门 KV 留在 GPU 显存中,或者在漫衍式或异构的盘算装备中设计迁徙战略等。体现与留存(结构维度):KV 长什么样?该分类关注数据体现。这是现在最拥挤的赛道,包括量化、驱逐等论文麋集的子领域,旨在直接镌汰 KV cache 的物理体积。
基于上述三个维度,该综述将现有事情归纳为 7 个二级种别,详细包括:以 KV 为中心的调理(KVS)、流水线与重叠(OVLP)、硬件感知的执行(HAE)、跨内存层级的 KV 编排(MHO)、跨盘算装备的 KV 编排(CDO)、KV cache 压缩(KVCC)、KV cache 留存治理(KVRM)。
该论文不但详细梳理了每个维度下的差别类型和手艺要领,还为每一类提炼了要害要点、局限与权衡,给出了可落地的适用指导。
深度洞察与开放挑战
这篇综述最有价值的部分之一,在于作者们对百余篇论文举行了全局交织剖析,从而归纳了7 大概害视察,并引发了6 大开放挑战。
首先,作者们对文献举行了跨行为共现剖析,以展现差别维度的 KV 行为之间的内在联系和协同模式;别的,作者们深入剖析了KV 行为和优化目的的作用关系,并统计了文献中对相关优化指标的现实关注情形。
基于以上两类交织剖析,作者们展现了目今领域的7 大概害视察,例如什么组合是最常见的协同模式?结构维度(如量化)虽然论文最多,为什么往往沦为系统中的「孤岛」?
基于要害视察,作者们进一步提炼了6 大开放挑战,例如在追求效率的同时,我们虽然常;峁刈⒌蕉云渲柿康挠跋,可是否往往忽视了可信度(trustworthiness)的隐形崩塌?该综述中对每一个视察和挑战都给出了详细的剖析和思绪,期待能引发社区向着越发高效与可信的 LLM 效劳系统的一连探索!
资源分享:Awesome-KV-Cache-Optimization 资源库
为了利便社区追踪这一飞速生长的领域的最新希望,论文作者同步维护了一个 Awesome 气概的资源库,收录并一连更新 sKis 领域的最新论文和代码实现。希望这个资源库能让你少走弯路!
地点:https://github.com/jjiantong/Awesome-KV-Cache-Optimization
若是你正在做 LLM Infra、模子压缩或者高性能盘算等相关偏向,接待在 GitHub 上 star 支持,或者来客栈一起补全与更新!
《永久免费中文字幕av》,《Q8X2R7L1T4J5M9B6W3》免费黄色大片视频
“亚洲视频性交”
中国老年夫妻性生活一二三区视频
……
01月18日
“人人干人人射人人草”天蚕土豆方程式
↓↓↓
01月18日,石破茂称日中双方将在力所能及的领域合作 中方回应,色色色色色色色五月天,好黄好硬好爽,欧美日韩国产亚洲无需播放器,敖闰JM码
01月18日,第十七届“香港杯”外交知识竞赛在港启动,国产三p视频,18禁动漫黄片,免费观看超污黄性爱视频在线观看网站,一区二区三区黄色毛片
01月18日,中新健康丨中疾控:得过甲流仍有可能得乙流,日韩最新午夜片无码精品,人人操人人高潮喷水,人人色黄色视频,国模无码视频一区二区三区
01月18日|浙江杭州打破1月中旬最高气温纪录|小 戳进 无遮挡暗夜|精品人妻少妇一级毛片免费|.com在线黄片www.|无码A级毛片免费不卡
01月18日|浙江金华一乡村医生:仁心守护村民55载|纪光莉在线观看|国产黄片免费视频|露出小奶头❌❌❌|网红/福利姬 - 微密猫
01月18日|吉林省国防动员办公室原主任穆占一被“双开”|www.婷婷五月.com|www.xxx.com|free性欧美婬妇xXXX视频偷拍|被公强A片视频免费看……
01月18日,广西横州茉莉花(茶)入选“土特产大众口碑百强榜”,国产加勒比在线,精品人妻无码专区,亚洲无码在线伊人,欧美深深色噜噜狠狠网
01月18日,(两会速递)云南省委书记:带污染的项目,再大也不要,国产在线秘 麻豆精品观看照片,亚洲A级性爱视频,黄色视频欧美一级作爱视频,国产日韩免费一级A片
01月18日|直击抗震救灾一线:新疆公安机关迅速启动救援排险工作|美女黄色视频免费的|曼珠华沙焯出水|男c女 黄秘 B站蘑菇视频|日韩精品无码福利区
01月18日,“潮动三月三·民族体育炫”2024年全国跳绳联赛(广西北海站)顺利举行,草莓视频成人,最近能看黄色网站,免费人成网在线观看,A片动态图
01月18日,拜登批以总理“对以伤害大于帮助” 美以领导人关系日益紧张?,免费电影你懂的,(涩涩黄色)视频,国产精品久久久久久88,瑟瑟软件
01月18日,广州一汽配仓库发生火灾 暂无人员伤亡,印度女人被添荫蒂免费视频,欧美丰妇另类XXXOOO,欧美老妇乱伦肏屁股,插到爽
01月18日|五一假期北京全市公园接待游客906.74万人次|riav在线视频观看看|妓女Av国语对白免费播放|tiktok|同性男男黄Gary片免费有腹肌
01月18日|靠什么确保“不拖欠一分血汗钱”?|我想看中国黄色网站黄色网黄色视频黄色电影|国产av二区尤物无码|被粗大的 捣出白浆|XXXX38🍆🍆HD
01月18日|山西省气象台发布雷暴大风蓝色预警|美女黄频免费看|人人操人人操人人揉人人看|中国老妇女50XXXXHD|男女激情gif无遮挡动态图
江西一身穿制服人员殴打饭店老板,宋茜 挥手告别祝福就好|从“最不适宜人类生存地区”到全球“自然城市” 六盘山下的华丽蝶变|《【国产】破处大神花上重金一万二找的清纯学生妹!为买苹果手机而卖出第一次!|点击进入免费影院入口|人人操人人尻人人爽|7788成年网站免费观看
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
签约金额超亿元 越港“上新”服务业合作
用一次通话让耳朵感受“春节的味道”,京东云带来温暖的AI技术创新
【寻味香江】北角鸡蛋仔 逾半世纪的传承守望
台制造业上市柜企业去年营收减10.7% “台积电独大”惹议
南京紫金山雾凇景观呈现北国风光
认可委员会:2023年新增各类获认可合格评定机构2290家
外媒:埃塞俄比亚北部发生山体滑坡 已致10人死亡
2024东北亚语言文化论坛在大连举行 推动数智技术与语言文化互融
中国成立汽车行业国家级创新平台联合体
专访秘鲁驻北京商务处参赞:钱凯港开港事关秘鲁未来发展
al白鹿换脸打扑克
无尽 裸体 女同 魅魔
国外性爱免费视频
原神涩涩 18禁游戏
冯提莫嘴巴吃小雨伞
国产AV毛片无码一级
啊哦我要h视频一区
yw193coc龙物永不联还是
国产视频最新地址发布
18 免费下载地址

闽公网安备 35010302000113号