首页
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理效劳效率的焦点瓶颈。自回归天生的特征使得模子必需存储历史 token 的 key-value 状态(即 KV cache)以阻止重复盘算,但 KV cache 的显存占用随着上下文长度的增添而膨胀,带来显著的内存瓶颈。
已往两年,关于 KV cache 的优化事情爆炸式增添,包括调理、迁徙、压缩等战略层出不穷。然而,现有综述主要聚焦于 LLM 推理或效劳的整体效率,大多仅将 KV cache 作为其中一个子模块作简要讨论。
近期,来自墨尔本大学和华中科技大学的研究者们宣布了一篇深度综述,从MLSys 的头脑出发,用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化要领举行了系统性梳理与深入剖析,并将相关资源整理成了一连维护的 Awesome 资源库,利便研究者与从业职员快速定位与落地。
论文地点: https://doi.org/10.36227/techrxiv.176046306.66521015/v3项目地点: https://github.com/jjiantong/Awesome-KV-Cache-Optimization
什么是「 sKis」?
为了提供更聚焦的视角和明确,作者们首先在综述中界说了sKis的界线:在推理效劳阶段,以 KV cache 为焦点优化工具,在不依赖模子重训或结构修改的条件下,提升吞吐、延迟等焦点系统指标。
从「系统行为」看 KV Cache
聚焦于 sKis,该综述立异性地提出以系统行为的视角来组织 KV cache 优化手艺:不是按详细流程、框架、算法来划分,而是按优化战略在系统中爆发的时间、空间、结构三个维度的行为来划分,从而更容易对齐工程实现与组合战略。
执行与调理(时间维度):KV 什么时间被会见和盘算?该分类关注执行历程与调理。例如设计以 KV 为中心的调理战略,接纳流水线来掩饰延迟,或者凭证差别硬件的特征适配操作等。安排与迁徙(空间维度):KV 放在那里、怎样迁徙?该分类关注数据的存储。例如在 GPU、CPU、SSD 组成的存储层级中怎样使热门 KV 留在 GPU 显存中,或者在漫衍式或异构的盘算装备中设计迁徙战略等。体现与留存(结构维度):KV 长什么样?该分类关注数据体现。这是现在最拥挤的赛道,包括量化、驱逐等论文麋集的子领域,旨在直接镌汰 KV cache 的物理体积。
基于上述三个维度,该综述将现有事情归纳为 7 个二级种别,详细包括:以 KV 为中心的调理(KVS)、流水线与重叠(OVLP)、硬件感知的执行(HAE)、跨内存层级的 KV 编排(MHO)、跨盘算装备的 KV 编排(CDO)、KV cache 压缩(KVCC)、KV cache 留存治理(KVRM)。
该论文不但详细梳理了每个维度下的差别类型和手艺要领,还为每一类提炼了要害要点、局限与权衡,给出了可落地的适用指导。
深度洞察与开放挑战
这篇综述最有价值的部分之一,在于作者们对百余篇论文举行了全局交织剖析,从而归纳了7 大概害视察,并引发了6 大开放挑战。
首先,作者们对文献举行了跨行为共现剖析,以展现差别维度的 KV 行为之间的内在联系和协同模式;别的,作者们深入剖析了KV 行为和优化目的的作用关系,并统计了文献中对相关优化指标的现实关注情形。
基于以上两类交织剖析,作者们展现了目今领域的7 大概害视察,例如什么组合是最常见的协同模式?结构维度(如量化)虽然论文最多,为什么往往沦为系统中的「孤岛」?
基于要害视察,作者们进一步提炼了6 大开放挑战,例如在追求效率的同时,我们虽然常;峁刈⒌蕉云渲柿康挠跋,可是否往往忽视了可信度(trustworthiness)的隐形崩塌?该综述中对每一个视察和挑战都给出了详细的剖析和思绪,期待能引发社区向着越发高效与可信的 LLM 效劳系统的一连探索!
资源分享:Awesome-KV-Cache-Optimization 资源库
为了利便社区追踪这一飞速生长的领域的最新希望,论文作者同步维护了一个 Awesome 气概的资源库,收录并一连更新 sKis 领域的最新论文和代码实现。希望这个资源库能让你少走弯路!
地点:https://github.com/jjiantong/Awesome-KV-Cache-Optimization
若是你正在做 LLM Infra、模子压缩或者高性能盘算等相关偏向,接待在 GitHub 上 star 支持,或者来客栈一起补全与更新!
《欧美性啪啪》,《Q8X2R7L1T4J5M9B6W3》有没有毛片网站
“秋霞网手机”
国产精品亚洲一区二区三区天天看
……
01月19日
“天堂JK.docx.zip”林诗栋vs林昀儒
↓↓↓
01月19日,重庆:师生共绘80幅水彩画 呈现云贵川渝地区山地人居环境现状,日韩精品在线播放,精品久久久久性色av,黄色片精品在线播放,18禁黄色网站入口
01月19日,我国再添四项人类非遗代表作(新时代画卷),无毒的性爱视频网站,小14萝,99日韩精品视频免费看,视频网站h欧美
01月19日,新华社社评:为推进中国式现代化汇聚智慧和力量——热烈祝贺全国政协十四届二次会议胜利闭幕,18禁黄色女同网站网站,亚洲男人第一Av网站国产,特一级黄,《羞羞啪啪》成人漫画
01月19日|陕西:以检察履职支撑特殊群体权益保护|国产91 在线播放九色潘多拉|久久在黄色视频|真人毛片|插美女下面
01月19日|专访谷爱凌:闪现奥运赛场跑不停 将挑战首个全马|卡卡西被 到爽 流|欧美射视频|考逼软件下免费下载|色黄色免费在线
01月19日|两岸和平统一可能性已丧失?国台办回应福建省工艺美术大师作品系列传承展创新创艺|七色色色色色色色色|欧美AⅤ激情三级又又人|欧美1级|亚洲老熟女乱又伦……
01月19日,中国拟明确非银支付机构注册资本附加要求,女S男M圣水 免费网站调教男生,米塔黄视频,欧美国产538精品A级,成品动漫网站
01月19日,采访中国全国两会的外国记者——“中国经济拥有光明前景”,国内大量精品偷拍人妻,亚洲综合无码一区二区456,日屁视频,国产一级i黄片操逼视频
01月19日|福建省政协助推打造两岸融合示范样板|播播网色播播免费鲁|东京色欲影院978新地址|小草免费在线短视频|超碰爱爱爱爱爱爱爱爱爱
01月19日,雷士照明点亮三亚体育中心,助力少数民族运动会圆满举办,se色综合网站,免费一键生成违禁照片的软件,面具公社在线观看,黄网站污污
01月19日,瑙鲁与台“断交”是中国对国际秩序的直接挑战? 外交部驳斥,国产三级电影免费,色哟哟入口精品,在线黄色视频了,,xunleige.c
01月19日,度小满CEO朱光:推理大模型在金融领域的应用将从外围场景深入到核心业务,人人干人人97,精品人妻一区二区三区麻豆三炮,人人视频精品全部免费,中文在线一页
01月19日|湖南专项整治领导干部利用职权或影响力为亲友牟利|小黄片在线免费看|a毛片在线看免费观看|男人的天堂精品视频加勒比|亚洲三级社区
01月19日|浙江温州乡村艺术团探索城乡文化融合“新版本”|tom温馨提示页面谷歌|91少女玩乳吃奶动漫|国产在线在线观看视频福利|免费 成人 动漫
01月19日|四川成都:文殊院香甜可口的腊八粥吸引民众|另类色色|网禁拗女稀缺资源在线观看|亚洲黄色激情|mm1313欧洲尺码与欧洲尺码区别9
威神V直播,芒果台就“某制片人性骚扰”发声明|绝代枫华莫干山 红枫节“枫”景正浓|性爱激情小说图片视频|久久亚洲精品中文字幕高清馆|www.69seav|www成人 色情美女网站
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
山西黎城:“水+”产业赋能丹泉河谷 打造乡村振兴新引擎
“五一”去哪玩 新疆喀什:听歌看舞 领略民族特色
伊以紧张局势加剧 多国呼吁保持克制
巴以冲突满百日 风险外溢止战迫在眉睫
(巴黎奥运)体操女子自由操:巴西选手安德拉德摘金
第37届中国电影金鸡奖提名公布
第六届兴边富民论坛在呼和浩特召开
海南探索耕地“电子身份证(二维码)”机制
锚定现代化 改革再深化丨以科技创新引领现代化产业体系建设
宇宙年龄究竟有多大?最新研究发现比当前宇宙学模型预测的年轻
殴美日韩黄片大片
www99热
馃崙馃崙馃崋馃崋馃崋
欧美丝袜脚xxxx
手机在线AⅤ永久免费
国产乱伦熟女
日韩淫片
艹肉穴
在线精品自拍第33页
免费黄色网站免费

闽公网安备 35010302000113号