首页
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理效劳效率的焦点瓶颈。自回归天生的特征使得模子必需存储历史 token 的 key-value 状态(即 KV cache)以阻止重复盘算,但 KV cache 的显存占用随着上下文长度的增添而膨胀,带来显著的内存瓶颈。
已往两年,关于 KV cache 的优化事情爆炸式增添,包括调理、迁徙、压缩等战略层出不穷。然而,现有综述主要聚焦于 LLM 推理或效劳的整体效率,大多仅将 KV cache 作为其中一个子?樽骷蛞致。
近期,来自墨尔本大学和华中科技大学的研究者们宣布了一篇深度综述,从MLSys 的头脑出发,用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化要领举行了系统性梳理与深入剖析,并将相关资源整理成了一连维护的 Awesome 资源库,利便研究者与从业职员快速定位与落地。
论文地点: https://doi.org/10.36227/techrxiv.176046306.66521015/v3项目地点: https://github.com/jjiantong/Awesome-KV-Cache-Optimization
什么是「 sKis」?
为了提供更聚焦的视角和明确,作者们首先在综述中界说了sKis的界线:在推理效劳阶段,以 KV cache 为焦点优化工具,在不依赖模子重训或结构修改的条件下,提升吞吐、延迟等焦点系统指标。
从「系统行为」看 KV Cache
聚焦于 sKis,该综述立异性地提出以系统行为的视角来组织 KV cache 优化手艺:不是按详细流程、框架、算法来划分,而是按优化战略在系统中爆发的时间、空间、结构三个维度的行为来划分,从而更容易对齐工程实现与组合战略。
执行与调理(时间维度):KV 什么时间被会见和盘算?该分类关注执行历程与调理。例如设计以 KV 为中心的调理战略,接纳流水线来掩饰延迟,或者凭证差别硬件的特征适配操作等。安排与迁徙(空间维度):KV 放在那里、怎样迁徙?该分类关注数据的存储。例如在 GPU、CPU、SSD 组成的存储层级中怎样使热门 KV 留在 GPU 显存中,或者在漫衍式或异构的盘算装备中设计迁徙战略等。体现与留存(结构维度):KV 长什么样?该分类关注数据体现。这是现在最拥挤的赛道,包括量化、驱逐等论文麋集的子领域,旨在直接镌汰 KV cache 的物理体积。
基于上述三个维度,该综述将现有事情归纳为 7 个二级种别,详细包括:以 KV 为中心的调理(KVS)、流水线与重叠(OVLP)、硬件感知的执行(HAE)、跨内存层级的 KV 编排(MHO)、跨盘算装备的 KV 编排(CDO)、KV cache 压缩(KVCC)、KV cache 留存治理(KVRM)。
该论文不但详细梳理了每个维度下的差别类型和手艺要领,还为每一类提炼了要害要点、局限与权衡,给出了可落地的适用指导。
深度洞察与开放挑战
这篇综述最有价值的部分之一,在于作者们对百余篇论文举行了全局交织剖析,从而归纳了7 大概害视察,并引发了6 大开放挑战。
首先,作者们对文献举行了跨行为共现剖析,以展现差别维度的 KV 行为之间的内在联系和协同模式;别的,作者们深入剖析了KV 行为和优化目的的作用关系,并统计了文献中对相关优化指标的现实关注情形。
基于以上两类交织剖析,作者们展现了目今领域的7 大概害视察,例如什么组合是最常见的协同模式?结构维度(如量化)虽然论文最多,为什么往往沦为系统中的「孤岛」?
基于要害视察,作者们进一步提炼了6 大开放挑战,例如在追求效率的同时,我们虽然常;峁刈⒌蕉云渲柿康挠跋,可是否往往忽视了可信度(trustworthiness)的隐形崩塌?该综述中对每一个视察和挑战都给出了详细的剖析和思绪,期待能引发社区向着越发高效与可信的 LLM 效劳系统的一连探索!
资源分享:Awesome-KV-Cache-Optimization 资源库
为了利便社区追踪这一飞速生长的领域的最新希望,论文作者同步维护了一个 Awesome 气概的资源库,收录并一连更新 sKis 领域的最新论文和代码实现。希望这个资源库能让你少走弯路!
地点:https://github.com/jjiantong/Awesome-KV-Cache-Optimization
若是你正在做 LLM Infra、模子压缩或者高性能盘算等相关偏向,接待在 GitHub 上 star 支持,或者来客栈一起补全与更新!
《9的黄色天堂网》,《Q8X2R7L1T4J5M9B6W3》九一插插
“欧美性交大战xxxxx久久久”
啪啪网址
……
01月18日
“女主播给粉丝看奶头”徐明浩成都
↓↓↓
01月18日,北京市气象台发布冰雹黄色预警信号,欧美性爱zozozo xxxx,免费韩国无码黄网站,黄片在线免费看。,人妻av无码专区久久五月天
01月18日,和谐共生|长江、黄河流域是生态文明建设的主战场,欧美熟妇A片在线A片视,日本免费性网站品爱网,初音未来黄漫肉湿,999国产精品999久久久久久
01月18日,线上线下互动 国家图书馆推出多项龙年春节文化大餐,最新免费毛片AAA,国产91亚洲福利精品,免费人成网站视频,视频视频久久久久
01月18日|【文化拾遗 魅力泉州】有声手账|创新发展,让花灯非遗绽放光彩|欧美在线精品视频一区二区|guochantoupai|挤奶黑色网站|美女黄视频黄
01月18日|【理响中国】把邓小平同志开创的中国特色社会主义事业继续推向前进|精品国产黄AV片一高清在线|操逼出水视频|18禁 网站检测|亚洲AV毛片儿激烈的
01月18日|“盛装舞步”千年前曾流行西域|国产欧美亚洲精品第二区下载|大雷插大狙+软件|激情文学网|网站9.1免费入口不用登录……
01月18日,“不制止补课被处分”的班主任很冤吗?,米塔🔞🍌进去里❌❌❌官方版,深夜在线性爱视频网,国产精品一区aⅴ,久操免费视屏
01月18日,图解|培育壮大新型农业经营主体,人人干日日干人人操,xxxxfuck,jiZZ大片全部,美国sirikfilim
01月18日|中央环保督察通报:四川省广元雅安等地长江支流和自然保护地生态破坏问题多发|www.五月.com|亚洲激情性爱|人人人干干干母乳|动漫美女被 到爽 斗罗大陆
01月18日,百年云南大学将向社会全面开放,寄宿日记第32话在珊珊炙热的嘴里,🈲🔞❌,激情小说播,欧美国产91自拍视频
01月18日,全国住房城乡建设行业职业技能大赛举办,欧美黑人性色A∨在线观看,三级片久久久久久久,日韩在线综合,我要日逼
01月18日,天津海关退运483吨液态洋垃圾,双男主做爱网站在线观看,www.gzsjpx.com,久久黄片一级,人人摸人人搞
01月18日|APEC中国工商理事会香港论坛开幕|zaixianoumeichengren|人人操人人草人人爱|女生啊~你tm别|男子把自己的私密部位插进女生的菊花部位视频
01月18日|周光召同志遗体在京火化|尤尔哈2B和9s的同人黄片|一级香蕉|引诱亲女乱视频大全|午夜欧美禁片在线观看
01月18日|新疆喀什航空口岸贸易额首破亿元大关|求最新国产网站|久久久久久久精品免费A片|国产女人毛多水多视频在线观看|推特看片
成了BL剧的主演,王多多预测WBG进决赛|热带风暴“黛比”已致4人遇难 美国又一州进入紧急状态|日本大片又大又好看的ppt一等奖免费免费版官方版下载|无码人妻精品一区二区三区99日韩|天天操天天日天天碰|男人用 入女人的
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
这场论坛,诠释中法人文“双向奔赴”
(巴黎残奥会)中国体育代表团各项准备工作基本就绪
广东成立首个空天医学工程研究中心
以色列北部遭160枚火箭弹袭击 多地响起防空警报
“智慧大脑”助力改造、"城中村"成"城中景" ……这些老城区不一样了
2024年网络视听企业社会责任创新典型案例交流活动在京举办
今年以来广东警方打掉针对老年人诈骗团伙76个
安徽发布气象干旱橙色预警
广西贵港:网传教师对待学生粗暴 已对涉事教师停课处理
数说山西政协“成绩单”:聚焦“国之大者”和“民之关切”
黄色性xxxx在线观看
乃万官方网站入口
久爱视频
毛毛黄色A片
国产高清
97爱爱日
国产美女18禁裸体无遮挡网站
eipril动画网站入口链接怎么打开
jojo徐伦本子
插在线视频

闽公网安备 35010302000113号