首页
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理效劳效率的焦点瓶颈。自回归天生的特征使得模子必需存储历史 token 的 key-value 状态(即 KV cache)以阻止重复盘算,但 KV cache 的显存占用随着上下文长度的增添而膨胀,带来显著的内存瓶颈。
已往两年,关于 KV cache 的优化事情爆炸式增添,包括调理、迁徙、压缩等战略层出不穷。然而,现有综述主要聚焦于 LLM 推理或效劳的整体效率,大多仅将 KV cache 作为其中一个子?樽骷蛞致。
近期,来自墨尔本大学和华中科技大学的研究者们宣布了一篇深度综述,从MLSys 的头脑出发,用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化要领举行了系统性梳理与深入剖析,并将相关资源整理成了一连维护的 Awesome 资源库,利便研究者与从业职员快速定位与落地。
论文地点: https://doi.org/10.36227/techrxiv.176046306.66521015/v3项目地点: https://github.com/jjiantong/Awesome-KV-Cache-Optimization
什么是「 sKis」?
为了提供更聚焦的视角和明确,作者们首先在综述中界说了sKis的界线:在推理效劳阶段,以 KV cache 为焦点优化工具,在不依赖模子重训或结构修改的条件下,提升吞吐、延迟等焦点系统指标。
从「系统行为」看 KV Cache
聚焦于 sKis,该综述立异性地提出以系统行为的视角来组织 KV cache 优化手艺:不是按详细流程、框架、算法来划分,而是按优化战略在系统中爆发的时间、空间、结构三个维度的行为来划分,从而更容易对齐工程实现与组合战略。
执行与调理(时间维度):KV 什么时间被会见和盘算?该分类关注执行历程与调理。例如设计以 KV 为中心的调理战略,接纳流水线来掩饰延迟,或者凭证差别硬件的特征适配操作等。安排与迁徙(空间维度):KV 放在那里、怎样迁徙?该分类关注数据的存储。例如在 GPU、CPU、SSD 组成的存储层级中怎样使热门 KV 留在 GPU 显存中,或者在漫衍式或异构的盘算装备中设计迁徙战略等。体现与留存(结构维度):KV 长什么样?该分类关注数据体现。这是现在最拥挤的赛道,包括量化、驱逐等论文麋集的子领域,旨在直接镌汰 KV cache 的物理体积。
基于上述三个维度,该综述将现有事情归纳为 7 个二级种别,详细包括:以 KV 为中心的调理(KVS)、流水线与重叠(OVLP)、硬件感知的执行(HAE)、跨内存层级的 KV 编排(MHO)、跨盘算装备的 KV 编排(CDO)、KV cache 压缩(KVCC)、KV cache 留存治理(KVRM)。
该论文不但详细梳理了每个维度下的差别类型和手艺要领,还为每一类提炼了要害要点、局限与权衡,给出了可落地的适用指导。
深度洞察与开放挑战
这篇综述最有价值的部分之一,在于作者们对百余篇论文举行了全局交织剖析,从而归纳了7 大概害视察,并引发了6 大开放挑战。
首先,作者们对文献举行了跨行为共现剖析,以展现差别维度的 KV 行为之间的内在联系和协同模式;别的,作者们深入剖析了KV 行为和优化目的的作用关系,并统计了文献中对相关优化指标的现实关注情形。
基于以上两类交织剖析,作者们展现了目今领域的7 大概害视察,例如什么组合是最常见的协同模式?结构维度(如量化)虽然论文最多,为什么往往沦为系统中的「孤岛」?
基于要害视察,作者们进一步提炼了6 大开放挑战,例如在追求效率的同时,我们虽然常;峁刈⒌蕉云渲柿康挠跋,可是否往往忽视了可信度(trustworthiness)的隐形崩塌?该综述中对每一个视察和挑战都给出了详细的剖析和思绪,期待能引发社区向着越发高效与可信的 LLM 效劳系统的一连探索!
资源分享:Awesome-KV-Cache-Optimization 资源库
为了利便社区追踪这一飞速生长的领域的最新希望,论文作者同步维护了一个 Awesome 气概的资源库,收录并一连更新 sKis 领域的最新论文和代码实现。希望这个资源库能让你少走弯路!
地点:https://github.com/jjiantong/Awesome-KV-Cache-Optimization
若是你正在做 LLM Infra、模子压缩或者高性能盘算等相关偏向,接待在 GitHub 上 star 支持,或者来客栈一起补全与更新!
《www.99插插插》,《Q8X2R7L1T4J5M9B6W3》久久丝袜足交
“在线播放你懂的网站”
永久免费中文字幕av
……
01月22日
“免费观看的黄视频”今天你1v1了没
↓↓↓
01月22日,报告:全球企业员工对AI技能的学习诉求增长迅速,久久久久久久性高,purnhub官网安装入口,久久无码A∨一区二区,欧美A级黄色精品
01月22日,新华社记者说|今年两会,习近平尤为关切这件“新”事,黄色永久网站,直接观看黄的免费网站,精品欧美视频在线视频黄色工厂,91AV电影网站在线观看
01月22日,天津伦敦“双城互动” 上演“海河邂逅泰晤士”天津时尚秀,黄色视频在线观看www,超碰在线91备用,欧美性爱操追,xlxxxxx日本。官方版下载-xlxxxxx日本。v65.7.77.4.9
01月22日|重庆高速公路、水运建设迎“开门红”|黄色网站免费看一级片|14女初学生自慰疯狂 喷|亚洲欧美日韩v中文综合一区二区|免费在线观看AAAAAAAA片
01月22日|《阿盖尔:神秘特工》中国首映 上演特工环球冒险故事|视频网站黄色产|自拍偷拍第七页|熟女俱乐部老女人|开户小能手下载
01月22日|“聚力”“联动”“扬帆” 光明科学城论坛·2024启幕|美女一级a片免费视频|久操视频精品|久久免费播放视频|免费,欧美一级视频……
01月22日,中华冰雪奇缘,太酷了!,亚洲夜色视频,欧美二区三区久久久精品,小太妹软件下载免费mp3下载地址网页版安装,亚洲第一精品玖玖爱在线观看
01月22日,和谐共生|长江、黄河流域是生态文明建设的主战场,yy8y熊熊猫(1),少妇 HD善交,亚洲欧美一级A片,久久精品国产99
01月22日|叙利亚反对派武装攻入哈马市 武装人员出现在城市街头|AAA级久久久精品无码片视频|啊啊啊想要|国产 av 丝袜|黄色视频在线观看免费91
01月22日,“31569”的背后:浙江共同富裕迈入第三载,在线日韩三级片,18岁69视屏,一区二区最新免费视频网站,曰本无码视频精一二三四性色
01月22日,广东海事启动防汛Ⅱ级应急响应 东江北江部分水域停航,床戏(巨肉高H)动漫,久久午夜私人在线看,亚洲综合无码无在线观看,99久久九九99
01月22日,春睡画院新聘画家70余幅作品亮相广州,国内大量揄拍人妻精品視頻,国产婷婷在线,紫悦被弄到高潮喷水,美女被艹视
01月22日|非深户人员无需居住证可申领新能源小汽车增量指标|黄页在线播放|人人添夜夜添夜夜狠狠添麻豆|昭和娘子被父亲欺负的原因|在线播放欧美伦理性爱禁区
01月22日|和评理 | 马尼拉应停止侵权挑衅 不要引火烧身玩火自焚|www. 国产|久久久久精品久久九九|18hlw.com|色久综合网精品
01月22日|四川拓展向西开放新空间|免费黄片AA级|亚洲看女生隐藏|亚洲一级黄|一级二级三级级黄片
TES vs LLL,黑神话悟空梗图|过度追求社交“轻量化” 63.5%受访青年担心缺少知心人|美女掀开裙子给男人摸的网站|furry狼人榨精Gay网站|校花被c娇喘出奶|国产91热爆91啪在线观看国产
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
歼-35A“新”在哪里?
放下压力,国足今晚拼了
“双11”广东省快递包裹揽投量再创历史新高
贵州台江:苗族同胞盛装巡游欢度“姊妹节”
F1卡塔尔大奖赛:中国车手周冠宇赛季首获积分并当选最佳车手
十四届全国人大二次会议表决通过了关于政府工作报告的决议
留学期间如何做好职业规划?
机构:4月中国核心城市二手房市场持续活跃
东北“老铁”送来的蔓越莓被广西人做成糖葫芦
2024年1—9月我国规模以上工业企业实现利润超5万亿元
人人操人人模人人看人人舔人人插
全网黄色片全黄黄色片全黄黄色片
亚洲熟女一区二区区三区
国产精品视频免费一区二区三区
www..com性爱
极品jk短裙学生被干爽了
黄色视频色啊啊啊啊
天堂男人在线
免费在线观看最新自拍视频
白丝 扒腿自慰爽出白色无码码

闽公网安备 35010302000113号