(4秒快速说明)亚洲五月天色图电脑版v57.55.02.70.92.13-2265安卓网

k1体育麻将胡了

搜索 猫眼影戏 融媒体矩阵
  • 山东手机报

  • 猫眼影戏

  • 公共网官方微信

  • 公共网官方微博

  • 抖音

  • 人民号

  • 天下党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

致敬Kimi K2:基于slime的全流程INT4量化感知RL训练

2026-02-05 16:02:48
泉源:

猫眼影戏

作者:

白子枫

手机审查

  猫眼影戏记者 林伟忠 报道Q8X2R7L1T4J5M9B6W3

受 Kimi K2 团队启发,SGLang RL 团队乐成落地了 INT4 量化感知训练(QAT) 流程计划 。通过 “训练端伪量化 + 推理端真实量化(W4A16)” 的计划组合,我们实现了媲美 BF16 全精度训练的稳固性与训推一致性,同时 INT4 极致压缩也将 1TB 级超大模子的采样使命容纳于单机 H200 (141G) 显存内,消除了跨机通讯瓶颈,显著提高了 Rollout 效率,为社区提供了兼顾高性能与低本钱的开源参考 。

近期,SGLang RL 团队在强化学习的训练稳固性,训练效率与适用场景方面取得了主要希望,详细包括:

Unified multi-turn VLM/LLM 多轮采样范式:我们提供了 VLM 多轮采样范式的实现blog,开发者只需编写一套定制化的 rollout 函数,即可像训练 LLM 一样,轻松开启 VLM 的多轮强化学习 。稳固性提升:我们实现了Rollout Router Replay机制,显著提升了 MoE 模子在 RL 训练历程中的稳固性 。低精度训练:我们在 RL 场景中乐成实现了全流程 FP8 训练与采样,进一步释放了硬件性能 。投契采样:我们在 RL 场景中乐成实践了投契采样,实现了大规模训练的无损加速 。

在此基础上,我们更进一步,在 slime 框架上乐成复现并落地了INT4 量化感知训练(QAT)全流程计划 。该计划深受 Kimi 团队 K2-Thinking 手艺报告中关于W4A16 QAT (Quantization-Aware Training)实践的启发 。为了致敬先行者并回馈社区,本文将详细剖析我们在开源生态中买通全流程的手艺细节,旨在为社区提供一份兼顾稳固性与性能的可落地参考 。

焦点收益概览:

突破显存瓶颈:通过权重压缩与低比特量化,使 1TB 级别的 K2 类模子能缩容至单机 H200 (141G) 显存内,阻止了跨机通讯瓶颈 。训推一致:训练端使用 QAT 确保权重切合 INT4 漫衍,推理端执行 W4A16 (Weights INT4, activations BF16 ) 盘算;二者均通过 BF16 Tensor Core 举行运算,实现了媲美 BF16 全精度的训推一致性 。单机效率倍增:在超大模子场景下,INT4 战略大幅降低了显存与带宽压力,Rollout 效率显著逾越 W8A8 (Weights FP8 , Activations FP8) 。

本项目由 SGLang RL 团队、 InfiXAI 团队、蚂蚁集团 Asystem & 阿福 Infra 团队, slime 团队与 RadixArk Miles 团队联合完成 。相关功效与 recipe 已经同步到了slime与Miles社区,接待各人试用与孝顺 。我们也在更进一步向 MXFP8 与 NVFP4 提倡挑战 。同时,由衷谢谢Verda Cloud为本事情提供的盘算资源 。

1. 手艺计划概览

1.1 总体流程

我们实现了从训练到推理的完整 QAT INT4 闭环的计划,如下图所示:

图1 QAT INT4 全流程

在QAT 训练阶段,训练侧在维护 BF16 主权重(Master Weights)的基础上,前向撒播通过伪量化(Fake Quantization)引入量化噪声 。所谓 “伪”,是指该办法并未真正将 BF16 数据类型转换为低精度的 INT4,而是坚持浮点盘算路径稳固,通过插入量化再反量化(Quant-Dequant)操作来模拟低精度的盘算 。

详细而言,高精度权重在经由 “离散化映射到 INT4” 后被连忙还原,虽然其物理存储名堂仍为浮点,但数值精度已实质性降低 。这种原值与还原值之间的差别引入了量化误差,在数学上等效于向网络注入了噪声,迫使模子在训练阶段就通过梯度更新去顺应这种精度损失 。

反向撒播则使用STE (Straight-Through Estimator)手艺跳过了量化算子的不可导特征 。量化历程的焦点操作是 “取整(Rounding)”,其数学形态为蹊径函数,导数在险些所有位置均为 0 。这意味着在标准反向撒播历程中,梯度信号传导至此处会因“梯度消逝”而彻底中止,导致底层的主权重无法获得更新 。

对此,STE 接纳了 “梯度透传” 战略:在反向撒播盘算时,将取整函数的导数界说为 1(即视为恒等映射) 。这一机制相当于在不可导的 “断崖” 上架设了一座桥梁,让梯度能够越过取整层,有用回传至高精度的浮点权重,确保 QAT 训练链路的闭环 。

在权重转换阶段,我们将训练收敛的 BF16 权重导出并执行真实量化(Real Quantization),将其转换为推理引擎适配的 INT4 名堂(如 Marlin) 。

进入RL Rollout阶段,由 SGLang 加载 INT4 Weights 并执行高效的 W4A16(INT4 权重 x BF16 激活)推理,天生的履历数据(Experience)将回流至第一阶段用于下一轮 RL 训练,从而组成一个自洽的迭代闭环 。

1.2 焦点战略选择

在量化名堂上,我们参考Kimi-K2-Thinking选用了INT4 (W4A16)计划 。这主要思量到相比 FP4,INT4 在现有硬件(Pre-Blackwell 架构)上的支持越发普遍,并且业界已有成熟高效的 Marlin Kernel 实现 。实验批注,在 1×32 量化 Scale 粒度下,INT4 动态规模富足、精度稳固,其性能与生态链路均已高度优化 。作为工业界 “足够好(Good Enough)” 的量化标准,INT4 在性能、危害与维护本钱间实现理性平衡 。虽然,我们后续也妄想在 NVIDIA Blackwell 系列硬件上进一步睁开 FP4 RL 的探索 。

在训练要领方面,我们接纳了Fake Quantization 配合 STE的经典组合 。通过维护 BF16 主权重,在前向盘算中模拟量化噪声,并在反向撒播时直通梯度,这种方法最洪流平地包管了低精度训练的收敛性与稳固性 。

2. 训练侧:Megatron-LM 的伪量化刷新

2.1 Fake Quantization 与 STE 实现

图2

这一阶段的焦点目的是在训练历程中实时模拟量化误差,迫使模子 “学会” 顺应低精度体现 。为此,我们接纳了Fake Quantization机制:只管权重在存储和更新时仍坚持高精度的 BF16 名堂,但在前向撒播的现实盘算中,会被暂时映射到 INT4 的精度规模加入运算 。

详细实现上,我们在 megatron/core/extensions/transformer_engine.py 中的 _FakeInt4QuantizationSTE 类构建了焦点逻辑 ;诜肿樽畲缶灾稻傩卸炕―ynamic Quantization),模拟 INT4 的 [-7, 7] 数值规模及截断操作,但在盘算时仍使用 BF16 类型,仅引入量化误差 。

而在要害的反向撒播环节,我们引入了STE机制,确保梯度能够直接穿透量化层,不经修改地回传以更新主权重,从而包管训练的一连性 。

2.2 Fake Quantization 比照实验

为了验证 QAT 计划的须要性,并探讨训练与推理精度不匹配带来的详细影响,我们设计了一组消融实验,划分在 “开启 QAT INT4 训练,BF16 Rollout” 和 “关闭 QAT 训练,直接举行 INT4 Rollout” 两种非对称场景下举行了测试,并以对数概率绝对差值(Logprob Abs Diff)作为训推纷歧致的视察指标 。

图3 Rollout 侧 BF16,训练侧比照 QAT INT4 效果

图3展示了 “开启 QAT INT4 训练,BF16 Rollout” 的场景(即红线部分) ?梢钥吹,纵然我们使用了高精度的 BF16 举行推理,误差依然显著偏高 。这是由于在 QAT 历程中,模子权重已经针对 INT4 的量化噪声举行了 “顺应性调解” 或赔偿;推理时若移除量化办法,这种赔偿反而成为扰动,导致特征漫衍偏移(Distribution Shift) 。

图4 Rollout 侧 INT4 Weight Only,训练侧比照 QAT INT4 效果

图4则展示了 “关闭 QAT 训练,直接举行 INT4 Rollout” 的场景(即红线部分) 。这对应了古板的训练后量化(PTQ)模式 。由于模子在训练阶段从未接触过量化噪声,直接将权重压缩至 INT4 不但造成信息的强烈丧失,更导致推理时的特征漫衍与训练时爆发偏移,致使误差随着训练步数泛起震荡上升的趋势 。

结论:实验有力地证实,训练端的 Fake Quantization 与推理端的 Real Quantization 必需协同开启 。只有当训练时的模拟噪声与推理时的真实量化精度严酷对齐,才华有用抑制训推纷歧致,阻止漫衍偏移,将误差控制在靠近基线的水平,从而真正买通低精度 RL 训练的全流程 。

3. 权重更新阶段

3.1 权重流转与动态名堂适配

图5

为了复用 SGLang 在推理端已有的优化,我们直接接纳了其内置的Marlin INT4作为 INT4 的推理计划 。然而,这在工程落地时我们遇到了显著的 “名堂鸿沟”:QAT 训练产出的是类似 Hugging face 上的标准名堂权重,而 SGLang 推理引擎的 Marlin Kernel 则强制要求权重必需经由特定的打包(Pack)与重排(Permute)处置惩罚,方能被 Kernel 高效读取 。

面临 RL 训练中频仍的权重更新需求,首先需要解决名堂兼容性问题 。为此,我们设计了一套逆向的 `restore_weights_before_loading`;せ 。该机制使用缓存的 `_original_shapes` 元数据,能够在权重更新行动爆发前,强制将目今内存中的 Marlin 权重名堂还原(Resize)回原始形状 。这一设计有用避免了因维度不匹配导致的运行时过失,确保模子能够在标准权重名堂与 Marlin 权重名堂之间平滑切换 。别的,我们还在系统层面新增了 `post_process_weights` API,允许控制平面凭证训练节奏显式触发这一流程 。

而针对权重加载完成后的名堂适配挑战,我们在 `compressed_tensors_moe.py` 中实现了一套动态权重治理机制 。在模子权重加载竣事阶段,系统会自动触发 `process_weights_after_loading` 流程,底层挪用 `gptq_marlin_moe_repack` 与 `marlin_moe_permute_scales` 等算子,在内存中即时将标准权重转换为高度优化的 Marlin 权重名堂,从而最大化推理时的访存与盘算效率 。

3.2 权重更新时的量化

图6

进入焦点的Real Quantization环节 。差别于训练时的 Fake Quantization,这一步通过代码中的 `int4_block_quantize` 函数执行不可逆的精度压缩操作:基于设定的 Group Size,盘算每组权重的缩放因子(Scale),并将高精度浮点数映射到 `[-7, 7]` 的 INT4 整数域 。

为了最大化显存使用率,接着执行位宽打包(Packing)操作 。由于 PyTorch 缺乏原生的 INT4 数据类型,我们通过 `pack_int4_to_int32` 函数使用位运算技巧,将 8 个 INT4 数值紧凑地 “压缩” 进 1 个 INT32 整数中(即 `8 × 4 bits = 32 bits`) 。最终,这些经由压缩的 Packed Weights 连同 Scale 因子被传输至推理引擎,完成了从 “训练名堂” 到 “推理名堂” 的转换 。

4. 推理阶段

图7

极简打包与零开销解包

在 RL 训练的 Rollout 阶段,我们直接复用了 SGLang 优化成熟的 W4A16 量化计划 。SGLang 使用紧凑的 INT4 名堂,将两个 4-bit 权重打包进一个字节,相比 BF16 节约了 75% 的内存 。在推理时,Triton kernel 通过高效的位移和掩码操作(>> 4 和 & 0xF)快速解包,得益于盘算与 IO 的并行笼罩,该历程险些实现了零特殊延迟 。

MoE 算子深度融合

显存优化:SGLang 引入动态的 moe_align_block_size,凭证目今 Token 数目和 Expert 漫衍自动选择 block_size ,将统一 Expert 的 Token 群集并对齐,提升显存带宽使用率 。盘算融合:SGLang 引擎除集成磷七效的Marlin INT4实现、还将 gating 部分 fuse 成一个高性能的 kernel,阻止了重复启动 kernel 和读写中心效果 。同时,该 INT4 推理计划兼容 GPTQ 和 AWQ 等主流量化名堂,以及支持对称与非对称两种模式 。

5. INT4 QAT RL 效果

5.1 训练效果

训练侧

图8 Qwen3-235B-A22B Raw-Reward比照

图9 Kimi-K2-Thinking Raw-Reward比照

上图展示了基于 slime 框架,Qwen3-235B-A22B 与 Kimi-K2-Thinking 模子在 dapo-math-17k 数据集上的训练体现 。通过比照实验发明,相较于 “BF16 训 - BF16 推” 及 “BF16 训 - FP8 推”,“BF16 训 - INT4 推” 设置下的 Raw-Reward 仍能坚持稳健增添,且其增添趋势与前两者基本一致,证实晰该计划在训练历程中的有用性 。

评估侧

图10 Qwen3-235B-A22B AIME数据集评估比照

图11 Kimi-K2-Thinking AIME数据集评估比照

为了越发严谨地评估模子能力的演进,我们每隔 10 个训练步长就在 aime-2024 基准测试集上举行一次评估 。上图给出了 Qwen3-235B-A22B 与 Kimi-K2-Thinking 在差别 RL 训练设置下的模子评分增添轨迹 。

实验批注:“BF16 训 - INT4 推” 计划不但在评估分数上泛起出稳健的上升态势,且其性能提升的斜率与最终抵达的峰值,均与 “BF16 训 - BF16 推” 和 “BF16 训 - FP8 推” 计划坚持了较高的重合度 。这种高度的一致性有力地证实晰模子在经由低比特量化后,其焦点体现能力并未受损,包管了在大幅降低盘算开销的同时,依然能够实现与全精度推理相媲美甚至完全看齐的泛化体现 。

5.2 训推差别

图12

图13

为了直观评估计划效果,我们在 Qwen3-30B 与 Qwen3-235B 模子上举行了的 QAT RL 训练验证 。图中 Y 轴反应了训练侧与推理侧输出的 Logprob 绝对差值,数值越低意味一致性越强 。实验效果显示,INT4(绿色虚线)与 BF16 基准(红色实线)泛起出惊人的重合度,且显著低于体现出较高误差水平的 FP8(蓝色虚线) 。这证实了 INT4 QAT 战略能有用规避 “BF16 训 - FP8 推” 模式下的精度损失,实现与全精度无异的训推体现 。

这种一致性背后的缘故原由我们推测为两点:

截断误差抑制:训练侧的 Fake Quantization 将权重限制在 INT4 值域内 。这种数值规模的约束,有用降低了矩阵乘法中 Accumulator 累加时因并行盘算顺序不确定性引发的浮点舍入误差(Floating-point Rounding Error),即改善了所谓的“大数加小数”精度丧失问题 。高精度盘算:推理侧接纳 W4A16 模式,其焦点盘算全程基于BF16 Tensor Core举行,确保了运算精度与训练阶段的高度对齐 。

5.3 Rollout 加速

图14 Qwen3-235B-A22B Rollout 性能比照

从 Qwen3-235B 的 Rollout 性能比照图中可以直寓目到,虽然 INT4(绿色点划线)与 FP8(蓝色虚线)均较 BF16 基线(红色实线)实现了显著加速,但两者相互之间并未拉开重大的性能鸿沟 。这一征象主要受限于目今的硬件特征:由于 NVIDIA H 系列 GPU 没有原生的 INT4 Tensor Core, W4A16 计划实质上使用的照旧 BF16 Tensor Core 举行盘算,虽然大幅降低了显存带宽压力,但在吞吐上无法像 W8A8 一样使用原生 FP8 Tensor Core 举行加速从而获得盘算增益 。因此,在单步推理耗时上,INT4 仅体现出微弱的优势,与 FP8 基本处于统一性能梯队 。

图15 Kimi-K2-Thinking Rollout 性能比照

关于 Kimi-K2-Thinking Rollout 性能的比照 。首先视察双节点场景下的通讯瓶颈:图中 FP8(红线)与 INT4(蓝线)泛起出相似的水平 。由于 H 系列 GPU 缺乏原生的 INT4 盘算单位,INT4 无法在盘算层面提供加速,因此整体性能依然受限于跨节点的通讯带宽 。

然而,绿线所代表的单节点体现展现了 INT4 的真正价值 —— 显存压缩 。通过将模子体积减半,我们乐成将 1TB 级别的超大模子完整加载至单机显存中 。这直接消除了腾贵的跨机通讯开销,将 Rollout 耗时大幅缩减 。这有力地证实,在目今硬件情形下,INT4 QAT 的焦点收益在于通过压缩显存,解锁了高效的单机安排 Rollout 计划 。

6. 总结与未来事情

slime 的这项事情不但证实晰在开源生态中复现工业界前沿计划的可行性,也为超大规模模子的低本钱训练探索了新的路径 。我们期望这套计划助力更多开发者深入明确 QAT 手艺,并推动其在 RL 场景下的现实落地与普遍应用 。

通过在开源框架上的复现,我们验证了 Kimi 团队所提出的 INT4 QAT 计划的有用性:

精度复现:在 slime 的复现实验中,我们同样视察到了 INT4 QAT 的精度优势,实现了与 BF16 基线一致的效果 。效率提升:RL Rollout 阶段的吞吐提升显著,验证了低比特量化在 RL 场景下的重大价值 。

未来事情:

训练端效率优化:现在,由于在训练历程中引入了 QAT Fake Quantization 盘算,带来了较大的特殊性能开销,导致逊з度显着低于 BF16 模式 。这在一定水平上折损了 Rollout 阶段带来的端到端性能收益 。我们后续妄想提出一套全新的优化计划,旨在解决这一训练侧的效率瓶颈,实现全链路的加速 。推理侧 FP4:随着 NVIDIA Blackwell 架构的逐步普及,我们将起劲探索 FP4 精度在 RL 训练与推理中的应用可行性,以期进一步挖掘硬件潜力 。

slime 在 QAT INT4 的实验不但证实晰在开源生态中复现工业界前沿计划的可行性,也为超大规模模子的低本钱训练探索了新的路径 。我们期望这套计划助力更多开发者深入明确 QAT 手艺,并推动其在 RL 场景下的现实落地与普遍应用 。

致谢

SGLang RL Team: Ji Li, Yefei Chen, Xi Chen, BBuf

InfiXAI Team: Mingfa Feng, Congkai Xie, Shuo Cai

蚂蚁集团 Asystem & 阿福 Infra 团队:Yanan Gao, Zhiling Ye, Yuan Wang, Xingliang Shi

RadixArk Miles Team: Chenyang Zhao, Yueming Yuan, Jiajun Li, Yusheng Su, Mao Cheng, Tom, Banghua Zhu

slime Team: Zilin Zhu, Chengxing Xie, Lei Li, Haisha Zhao

??时势1:18 黑料网爆在线观看

??02月05日,押加、轮子秋 青海团出征十二届全国少数民族传统体育运动会,

  “这娃还真是个另类!”

,免费观看国产特色黄色Av大片 。

??02月05日,日本大阪伊丹机场两客机发生碰撞事故 无人受伤,

  “有气焰,好名字!”夏幽雨嫣然一笑 。

,白丝护士口爆吞精,xx综合网,丝袜 制服 无码中文字幕 。

??时势2:日本三级片在线免费播放

??02月05日,数说湾区丨四图速览大湾区发展,

  这一切为我们20xx年打好结业考这一胜仗涤讪了优异的基础 。我相信,我们20xx年小考效果定能再立异高!希望全体同砚为实现我们既定的目的全力以赴 。

,国产精品久久人人做人人玩,国产一级精品黄色视频,日本片,被掐死的人妻视频 。

??02月05日,推动经济持续回升向好!当前中国经济热点问答,  2024年2月28日,距离2024年高考尚有100天,李龙在小我私家社交平台上发了一条视频 。视频里,李龙正式宣布自己最先温习高考,同时也勉励其他的高三考生:“100天足够创立一个事业 。”,国产精品强奸在线,一级全黄免费视频一级,在线伊人 。

??时势3:色综合2

??02月05日,伪造“红头文件”行骗牟利 传播伪科普误导公众——中国互联网联合辟谣平台2024年5月辟谣榜综述,

  这才一个照面啊,强盛的狈村祭灵就被穿透躯体,没有一丝的对抗能力,差别之大,超乎想象 。

,坐脸闻屁调教丨ⅤK,jjizz在线网站,制服丝袜中文字幕91麻豆 。

??02月05日,妇女发展计划分享会活动在港举办 冀促进妇女全面发展,

  体育是人类文明和智慧的结晶, 学校体育更是素质教育的主要组成部分, 它关于强壮学生体魄, 作育学生顽强的意志、优异的相助意识, 整体主义精神等方面都起到主要的增进作用 。正是由于体育的作用才有了我们人类的康健生涯的追求, 拥有了人类的清静竞争运动, 在北京20xx年夏日奥运会上空熊熊燃烧的圣火向全天下昭示了体育的作用和重大的魅力所在 。本次运动会是我校一年一度的学生体育盛会, 是增添相识、增进友谊、增强团结、增进生长的体育盛会 。既是对我校体育事情的一次大校阅,也是对我校体育运动水平的一次大展示, 必将推动全校体育事业的生长, 提高全体学生的身体素质, 让学生在阳光下康健生长 。在此, 我希望全体参赛运发动发挥更快、更高、更强和团结、友谊、前进的奥林匹克精神, 模范遵守运发动守则, 团结协作, 顽强拼搏, 胜不骄, 败不馁, 赛出气概、赛出水平, 赛出友谊, 周全展现今世中学生蓬勃向上的时代风范和精神风貌, 取得运动效果与精神文明双丰收;希望全文体判员、教练员、事情职员坚持果真、公正、公正的原则, 恪尽职守, 严于律己, 严肃赛风, 严酷赛纪, 确保运动会的顺遂举行 。让我们配合起劲, 把本次运动会办成一次文明、热烈、精彩、圆满的盛会!

,男女性爱骚逼免费视频,九九九黑客破解家庭网络,桃色免费黄色视频欧美 。

??时势4:nxgx4k 2024

??02月05日,云南镇雄山体滑坡搜救出11人已无生命体征 专家初步研判崩塌过程,

  “石毅之名早已震惊这片大地,有几人不知,这是真正的旷众人杰,冠古凌今,有几人可比?锤叔颔首 。

,亚洲爱爱视频免费,免费黄网址,黄片免费在线国 。

??02月05日,山西平顺县山火火势已初步得到控制 当地派出直升机协助救援,

  仔细:战胜粗心,必需仔细 。审题要仔细,题意要弄清;细中求速率,快中不忘稳;检查要认真 。

,涩谷果步rct系列,原神同人黄漫,欧美乱轮 。

责编:李崎泉

审核:张明春

责编:李津章

相关推荐 换一换

Copyright (C) 2001-   dzwww.com. All Rights Reserved

新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证

山东省互联网传媒集团主理  联系电话:0531-85193202  违法不良信息举报电话:0531-85196540

鲁ICP备09023866号-1   鲁公网安备 37010202000111号  

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

网站地图