首页
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理效劳效率的焦点瓶颈。自回归天生的特征使得模子必需存储历史 token 的 key-value 状态(即 KV cache)以阻止重复盘算,但 KV cache 的显存占用随着上下文长度的增添而膨胀,带来显著的内存瓶颈。
已往两年,关于 KV cache 的优化事情爆炸式增添,包括调理、迁徙、压缩等战略层出不穷。然而,现有综述主要聚焦于 LLM 推理或效劳的整体效率,大多仅将 KV cache 作为其中一个子?樽骷蛞致。
近期,来自墨尔本大学和华中科技大学的研究者们宣布了一篇深度综述,从MLSys 的头脑出发,用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化要领举行了系统性梳理与深入剖析,并将相关资源整理成了一连维护的 Awesome 资源库,利便研究者与从业职员快速定位与落地。
论文地点: https://doi.org/10.36227/techrxiv.176046306.66521015/v3项目地点: https://github.com/jjiantong/Awesome-KV-Cache-Optimization
什么是「 sKis」?
为了提供更聚焦的视角和明确,作者们首先在综述中界说了sKis的界线:在推理效劳阶段,以 KV cache 为焦点优化工具,在不依赖模子重训或结构修改的条件下,提升吞吐、延迟等焦点系统指标。
从「系统行为」看 KV Cache
聚焦于 sKis,该综述立异性地提出以系统行为的视角来组织 KV cache 优化手艺:不是按详细流程、框架、算法来划分,而是按优化战略在系统中爆发的时间、空间、结构三个维度的行为来划分,从而更容易对齐工程实现与组合战略。
执行与调理(时间维度):KV 什么时间被会见和盘算?该分类关注执行历程与调理。例如设计以 KV 为中心的调理战略,接纳流水线来掩饰延迟,或者凭证差别硬件的特征适配操作等。安排与迁徙(空间维度):KV 放在那里、怎样迁徙?该分类关注数据的存储。例如在 GPU、CPU、SSD 组成的存储层级中怎样使热门 KV 留在 GPU 显存中,或者在漫衍式或异构的盘算装备中设计迁徙战略等。体现与留存(结构维度):KV 长什么样?该分类关注数据体现。这是现在最拥挤的赛道,包括量化、驱逐等论文麋集的子领域,旨在直接镌汰 KV cache 的物理体积。
基于上述三个维度,该综述将现有事情归纳为 7 个二级种别,详细包括:以 KV 为中心的调理(KVS)、流水线与重叠(OVLP)、硬件感知的执行(HAE)、跨内存层级的 KV 编排(MHO)、跨盘算装备的 KV 编排(CDO)、KV cache 压缩(KVCC)、KV cache 留存治理(KVRM)。
该论文不但详细梳理了每个维度下的差别类型和手艺要领,还为每一类提炼了要害要点、局限与权衡,给出了可落地的适用指导。
深度洞察与开放挑战
这篇综述最有价值的部分之一,在于作者们对百余篇论文举行了全局交织剖析,从而归纳了7 大概害视察,并引发了6 大开放挑战。
首先,作者们对文献举行了跨行为共现剖析,以展现差别维度的 KV 行为之间的内在联系和协同模式;别的,作者们深入剖析了KV 行为和优化目的的作用关系,并统计了文献中对相关优化指标的现实关注情形。
基于以上两类交织剖析,作者们展现了目今领域的7 大概害视察,例如什么组合是最常见的协同模式?结构维度(如量化)虽然论文最多,为什么往往沦为系统中的「孤岛」?
基于要害视察,作者们进一步提炼了6 大开放挑战,例如在追求效率的同时,我们虽然经常会关注到对其质量的影响,可是否往往忽视了可信度(trustworthiness)的隐形崩塌?该综述中对每一个视察和挑战都给出了详细的剖析和思绪,期待能引发社区向着越发高效与可信的 LLM 效劳系统的一连探索!
资源分享:Awesome-KV-Cache-Optimization 资源库
为了利便社区追踪这一飞速生长的领域的最新希望,论文作者同步维护了一个 Awesome 气概的资源库,收录并一连更新 sKis 领域的最新论文和代码实现。希望这个资源库能让你少走弯路!
地点:https://github.com/jjiantong/Awesome-KV-Cache-Optimization
若是你正在做 LLM Infra、模子压缩或者高性能盘算等相关偏向,接待在 GitHub 上 star 支持,或者来客栈一起补全与更新!
《18岁黄片在线看》,《Q8X2R7L1T4J5M9B6W3》国产美女精晶一级A片
“大雷跳舞被捏求饶视频”
18岁禁看的黄片
……
01月19日
“91免费看A片”你的肌肤有多自律
↓↓↓
01月19日,“三九”时节长江中游三省最高气温冲上20℃,人人看人人摸人人操人人干人人干人人干,工口里番人妻全彩无遮挡肉,美女高潮无遮挡喷水视频,国产鲁嘿嘿在线视频
01月19日,哈萨克斯坦紧急情况部:近5万受洪灾民众返回家园,红桃m80n5,国产aw无码片毛片一级,大学生国产在线,一级片美女
01月19日,10月28日央行开展2416亿元7天期逆回购操作,久久电影网站,小h片在线,www无码国产,欧美老妪
01月19日|全球客家人的“回家之路”:河南老家 我回来了|国产在线精品99一区二区超清|欧美片在线观看|美女把衣服脱干净,让男人吃她的奶头|一区二区
01月19日|哈尔滨首推夏季江上实景演出 百余名中外演员联袂献艺|无码AV动漫精品一区二区三区|大胸女擦边视频|免费的性生活视频|网红生物闵老师自慰白浆
01月19日|【这个城市有点潮】舟山:在桃花岛上寻梦金庸笔下的侠义江湖|美女➕光屁屁➕捆绑|熟女乱子BBw|3Dh色视频在线播放|国产呦在线……
01月19日,受雨雪冰冻天气影响 2月1日郑州局管内部分列车停运,亚洲午夜三级在线观看,在线黄色网站在线,哪里可以看免费的av,中文字幕在线观看有限公司
01月19日,新疆阿克苏地区乌什县发生7.1级地震 乌什县各乡镇基本恢复供电,灌宫调教play,黄色片安装包,二次元可脱卸衣服的游戏,美国黄片一级A片
01月19日|汪文斌:中方将为中柬两国青年交流提供更多平台和机会|一级A片免费中文字幕久久|偷拍乱日乱操视频|18禁男男捆绑调教|在线观看黄AⅤ免费无毒网站
01月19日,老挝华裔新生代游学普洱 感受中华文化,波霸公杜登录,女人被爽到呻吟的视频动态图,性欧美尿喷,欧美极品逼毛
01月19日,重达2492克拉!博茨瓦纳发现世界第二大钻石,骚仙子被玩烂了h,91精品视频一区,成人A片产无码免费视频奶头软件,三个女儿都怀了爸爸的男主角是谁
01月19日,上海邮轮市场加速恢复 今年前10个月国际邮轮靠泊198艘次,性欲亢进让男性“欲”罢不能 如何治疗?,在线日色,阿狸被 吸乳羞羞A片,日本视频在线观看网站
01月19日|深圳福田区发布12条举措打造“数字金融先行区”|日本少妇╳╳ HaD|全部免费A片在线观看vr系列|一区二区美女脱黑色丝袜视频|百度搜索欧洲美女与动物乱伦交配视频
01月19日|孟加拉国青年看中国年:不一样的民俗一样的和美|午夜毛片www|黄片在线S色|欧美老妇曰逼|av中文字幕在线观看网址
01月19日|汽车以旧换新信息平台累计登记注册用户数超110万|成人夜晚看Av|欧美第十页|女生和男生|超碰在线免费97.com
我们的翻译官,如何评价机械革命自燃事件|广西:过去三年规模以上工业增加值年均增长6.5%|久久精品一级做日本|缅甸KK区女人糟蹋原视频|igao视频国产黄色|国产精品自产拍在线观看一
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺

闽公网安备 35010302000113号