首页
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理效劳效率的焦点瓶颈。自回归天生的特征使得模子必需存储历史 token 的 key-value 状态(即 KV cache)以阻止重复盘算,但 KV cache 的显存占用随着上下文长度的增添而膨胀,带来显著的内存瓶颈。
已往两年,关于 KV cache 的优化事情爆炸式增添,包括调理、迁徙、压缩等战略层出不穷。然而,现有综述主要聚焦于 LLM 推理或效劳的整体效率,大多仅将 KV cache 作为其中一个子?樽骷蛞致。
近期,来自墨尔本大学和华中科技大学的研究者们宣布了一篇深度综述,从MLSys 的头脑出发,用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化要领举行了系统性梳理与深入剖析,并将相关资源整理成了一连维护的 Awesome 资源库,利便研究者与从业职员快速定位与落地。
论文地点: https://doi.org/10.36227/techrxiv.176046306.66521015/v3项目地点: https://github.com/jjiantong/Awesome-KV-Cache-Optimization
什么是「 sKis」?
为了提供更聚焦的视角和明确,作者们首先在综述中界说了sKis的界线:在推理效劳阶段,以 KV cache 为焦点优化工具,在不依赖模子重训或结构修改的条件下,提升吞吐、延迟等焦点系统指标。
从「系统行为」看 KV Cache
聚焦于 sKis,该综述立异性地提出以系统行为的视角来组织 KV cache 优化手艺:不是按详细流程、框架、算法来划分,而是按优化战略在系统中爆发的时间、空间、结构三个维度的行为来划分,从而更容易对齐工程实现与组合战略。
执行与调理(时间维度):KV 什么时间被会见和盘算?该分类关注执行历程与调理。例如设计以 KV 为中心的调理战略,接纳流水线来掩饰延迟,或者凭证差别硬件的特征适配操作等。安排与迁徙(空间维度):KV 放在那里、怎样迁徙?该分类关注数据的存储。例如在 GPU、CPU、SSD 组成的存储层级中怎样使热门 KV 留在 GPU 显存中,或者在漫衍式或异构的盘算装备中设计迁徙战略等。体现与留存(结构维度):KV 长什么样?该分类关注数据体现。这是现在最拥挤的赛道,包括量化、驱逐等论文麋集的子领域,旨在直接镌汰 KV cache 的物理体积。
基于上述三个维度,该综述将现有事情归纳为 7 个二级种别,详细包括:以 KV 为中心的调理(KVS)、流水线与重叠(OVLP)、硬件感知的执行(HAE)、跨内存层级的 KV 编排(MHO)、跨盘算装备的 KV 编排(CDO)、KV cache 压缩(KVCC)、KV cache 留存治理(KVRM)。
该论文不但详细梳理了每个维度下的差别类型和手艺要领,还为每一类提炼了要害要点、局限与权衡,给出了可落地的适用指导。
深度洞察与开放挑战
这篇综述最有价值的部分之一,在于作者们对百余篇论文举行了全局交织剖析,从而归纳了7 大概害视察,并引发了6 大开放挑战。
首先,作者们对文献举行了跨行为共现剖析,以展现差别维度的 KV 行为之间的内在联系和协同模式;别的,作者们深入剖析了KV 行为和优化目的的作用关系,并统计了文献中对相关优化指标的现实关注情形。
基于以上两类交织剖析,作者们展现了目今领域的7 大概害视察,例如什么组合是最常见的协同模式?结构维度(如量化)虽然论文最多,为什么往往沦为系统中的「孤岛」?
基于要害视察,作者们进一步提炼了6 大开放挑战,例如在追求效率的同时,我们虽然常;峁刈⒌蕉云渲柿康挠跋,可是否往往忽视了可信度(trustworthiness)的隐形崩塌?该综述中对每一个视察和挑战都给出了详细的剖析和思绪,期待能引发社区向着越发高效与可信的 LLM 效劳系统的一连探索!
资源分享:Awesome-KV-Cache-Optimization 资源库
为了利便社区追踪这一飞速生长的领域的最新希望,论文作者同步维护了一个 Awesome 气概的资源库,收录并一连更新 sKis 领域的最新论文和代码实现。希望这个资源库能让你少走弯路!
地点:https://github.com/jjiantong/Awesome-KV-Cache-Optimization
若是你正在做 LLM Infra、模子压缩或者高性能盘算等相关偏向,接待在 GitHub 上 star 支持,或者来客栈一起补全与更新!
《538无码视频在线观看免费》,《Q8X2R7L1T4J5M9B6W3》在线观看你国产懂得网址
“女神网站羞羞漫画”
千仞雪三角形泳衣
……
01月21日
“男女被c 黄秘 91”比特币超白银 成全球市值第八大资产
↓↓↓
01月21日,“2024海峡两岸青年活力嘉年华”上海开幕 逾两千名台青参加,国产精品一区二区免费不卡,影音先锋亚洲综合资源在线观看,搞a在线观看免费,wwwwww、日本
01月21日,穿旗装、学满语 台湾少数民族同胞领略满族民俗,日本强奸乱伦电影中文字幕,九九9九九9视频在线观看,日韩免费视频一一二区,国产黄在观线免费
01月21日,达里诺尔湖畔的“天鹅爸爸”,欧美JiZZ18性欧美,插综合网,蘑菇tv网页版三秒跳转,修仙黄油
01月21日|新疆新和县一轿车与货车发生碰撞,致轿车内6人死亡|jizz欧美人与兽|亚洲综合一区国产精品不卡|超碰在线91备用|动漫 爆乳 3d网站
01月21日|受双台风影响,东部及南部海域将迎来较强风雨|黄色视频网址免费观看|成人无码ss25ss亚洲AV|一本一道波多野结衣AV中文|美国迷妹熟女链接
01月21日|山西藜麦粉首次出口 运往法国|雷电将军裸体 自慰喷水|黄视频色网站免费|国产a片四区|一级天堂在线播放网站……
01月21日,教育部:加强中小学人工智能教育,欧美性爱ww,www.黄色cnm,2020国产高清无码在线观看视频你,动漫美女被
01月21日,广西加快构建“粤港澳大湾区—北部湾经济区—东盟”跨境产业链供应链,裸体视频软件,女同学白袜调教丨Ⅴk,裸体魅魔,禁止18岁进的网站
01月21日|印尼巴厘岛水神庙吸引游客|一区二区在线孕妇|亚洲av办公室啊|欧美性生话片|羞羞动漫网
01月21日,时政新闻眼丨纪念邓小平同志诞辰120周年,习近平为何强调这一句话?,色偷偷91综合久久噜噜噜男男,国产在线视频XXXX,东北妓女脏话对白AAAAA片,又大又粗的免费黄色视频
01月21日,东航江苏公司启动空乘招聘考试 “00后”应聘者接近4000人,卡通动漫第1页亚洲综合,美女隐私秘 黄www6学生,免费 无码 国产在线55,男生把小困困进女生困里电视剧
01月21日,山东德州强化“四轮”驱动 推动惠企政策落地,欧美疯狂视频一级视频,女自慰网站,男人天堂s8视频网站,中文字幕av在线
01月21日|联合国秘书长呼吁在加沙和苏丹实现斋月停火|久久亚洲毛片中文字幕|美女肛交的视频|久久国产乱子伦免费精品无码|妈妈太深⋯拔出来⋯痛
01月21日|湖北与东盟合作潜力加快释放|91自拍论坛|a片在线播放av|王多鱼韩婧格博雅免费观看资源|大雷擦狙狙免费视频高清版
01月21日|【侨一瞧】苏里南总统单多吉:跨越万里的友谊 共同擘画两国关系宏伟蓝图|欧美女性裸体虐待捆绑图片|免费国产|黄色视频永久免费|亚洲ww欧美ww日本ww韩ww产精国品
意大利开始调查英企业家游艇沉没案,全红婵陈芋汐双保险|2024年春节档已定档6部新片 喜剧成绝对主力|exo妈妈mv高清在线播放免费|免费一级A片网站|欧美日韩精品一区二区在线A级毛|图片区小说区视频区偷拍区
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
间接带动14万亿经济产出!5G商用五年赋能千行百业 成为中国经济增长新引擎
突发!美国爱达荷州一在建机库坍塌 已致3死9伤
蓝天立:感谢“小东北虎”“小雾凇”“小冻梨”们和广西的双向奔赴
时政微观察丨从四次座谈会读懂“一张蓝图绘到底”
湖南会同五村联创“抱团发展” 绘就振兴示范样板
直播间真假难辨 实体店价位走高 羽绒服翻新今冬受追捧
中国空军:歼-35A飞机用上强劲“中国心”
(新春走基层)福州:春节临近年味浓
(新春见闻)天津:龙年春节临近 年货市场购销两旺
从前三季度多领域数据看中国经济运行的“稳”与“进”
欧美性爱大片视频
男子大捧一进一出视频
久久www免费人成人片
欧美顶级黄片
十八岁禁看免费网站
黄色网站永久域名
肉欲奥运会1983删减了吗
色视频网址
黄片2024
免费草b

闽公网安备 35010302000113号