橘子喵推特照片

电脑版下载

29976
7

橘子喵推特照片截图Q8X2R7L1T4J5M9B6W3

内容详情

橘子喵推特照片

随着 LLM 向 1M 上下文演进，KV cache（键值缓存）已成为制约推理效劳效率的焦点瓶颈。自回归天生的特征使得模子必需存储历史 token 的 key-value 状态（即 KV cache）以阻止重复盘算，但 KV cache 的显存占用随着上下文长度的增添而膨胀，带来显著的内存瓶颈。

已往两年，关于 KV cache 的优化事情爆炸式增添，包括调理、迁徙、压缩等战略层出不穷。然而，现有综述主要聚焦于 LLM 推理或效劳的整体效率，大多仅将 KV cache 作为其中一个子�？樽骷蛞致�。

近期，来自墨尔本大学和华中科技大学的研究者们宣布了一篇深度综述，从MLSys 的头脑出发，用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化要领举行了系统性梳理与深入剖析，并将相关资源整理成了一连维护的 Awesome 资源库，利便研究者与从业职员快速定位与落地。

论文地点: https://doi.org/10.36227/techrxiv.176046306.66521015/v3项目地点: https://github.com/jjiantong/Awesome-KV-Cache-Optimization

什么是「 sKis」？

为了提供更聚焦的视角和明确，作者们首先在综述中界说了sKis的界线：在推理效劳阶段，以 KV cache 为焦点优化工具，在不依赖模子重训或结构修改的条件下，提升吞吐、延迟等焦点系统指标。

从「系统行为」看 KV Cache

聚焦于 sKis，该综述立异性地提出以系统行为的视角来组织 KV cache 优化手艺：不是按详细流程、框架、算法来划分，而是按优化战略在系统中爆发的时间、空间、结构三个维度的行为来划分，从而更容易对齐工程实现与组合战略。

执行与调理（时间维度）：KV 什么时间被会见和盘算？该分类关注执行历程与调理。例如设计以 KV 为中心的调理战略，接纳流水线来掩饰延迟，或者凭证差别硬件的特征适配操作等。安排与迁徙（空间维度）：KV 放在那里、怎样迁徙？该分类关注数据的存储。例如在 GPU、CPU、SSD 组成的存储层级中怎样使热门 KV 留在 GPU 显存中，或者在漫衍式或异构的盘算装备中设计迁徙战略等。体现与留存（结构维度）：KV 长什么样？该分类关注数据体现。这是现在最拥挤的赛道，包括量化、驱逐等论文麋集的子领域，旨在直接镌汰 KV cache 的物理体积。

基于上述三个维度，该综述将现有事情归纳为 7 个二级种别，详细包括：以 KV 为中心的调理（KVS）、流水线与重叠（OVLP）、硬件感知的执行（HAE）、跨内存层级的 KV 编排（MHO）、跨盘算装备的 KV 编排（CDO）、KV cache 压缩（KVCC）、KV cache 留存治理（KVRM）。

该论文不但详细梳理了每个维度下的差别类型和手艺要领，还为每一类提炼了要害要点、局限与权衡，给出了可落地的适用指导。

深度洞察与开放挑战

这篇综述最有价值的部分之一，在于作者们对百余篇论文举行了全局交织剖析，从而归纳了7 大概害视察，并引发了6 大开放挑战。

首先，作者们对文献举行了跨行为共现剖析，以展现差别维度的 KV 行为之间的内在联系和协同模式；别的，作者们深入剖析了KV 行为和优化目的的作用关系，并统计了文献中对相关优化指标的现实关注情形。

基于以上两类交织剖析，作者们展现了目今领域的7 大概害视察，例如什么组合是最常见的协同模式？结构维度（如量化）虽然论文最多，为什么往往沦为系统中的「孤岛」？

基于要害视察，作者们进一步提炼了6 大开放挑战，例如在追求效率的同时，我们虽然常�；峁刈⒌蕉云渲柿康挠跋�，可是否往往忽视了可信度（trustworthiness）的隐形崩塌？该综述中对每一个视察和挑战都给出了详细的剖析和思绪，期待能引发社区向着越发高效与可信的 LLM 效劳系统的一连探索！

资源分享：Awesome-KV-Cache-Optimization 资源库

为了利便社区追踪这一飞速生长的领域的最新希望，论文作者同步维护了一个 Awesome 气概的资源库，收录并一连更新 sKis 领域的最新论文和代码实现。希望这个资源库能让你少走弯路！

地点：https://github.com/jjiantong/Awesome-KV-Cache-Optimization

若是你正在做 LLM Infra、模子压缩或者高性能盘算等相关偏向，接待在 GitHub 上 star 支持，或者来客栈一起补全与更新！