(1分钟快速说明)无遮挡一级毛片私人影院最新版v76.29.616.99.803.81-2265安卓网

首页 >新闻 >社会新闻

致敬Kimi K2：基于slime的全流程INT4量化感知RL训练

2026-02-05 19:56:43

泉源：

猫眼影戏

作者：

罗向阳

手机审查

　　猫眼影戏记者崔坤报道Q8X2R7L1T4J5M9B6W3

受 Kimi K2 团队启发，SGLang RL 团队乐成落地了 INT4 量化感知训练（QAT）流程计划。通过 “训练端伪量化 + 推理端真实量化（W4A16）” 的计划组合，我们实现了媲美 BF16 全精度训练的稳固性与训推一致性，同时 INT4 极致压缩也将 1TB 级超大模子的采样使命容纳于单机 H200 (141G) 显存内，消除了跨机通讯瓶颈，显著提高了 Rollout 效率，为社区提供了兼顾高性能与低本钱的开源参考。

近期，SGLang RL 团队在强化学习的训练稳固性，训练效率与适用场景方面取得了主要希望，详细包括：

Unified multi-turn VLM/LLM 多轮采样范式：我们提供了 VLM 多轮采样范式的实现blog，开发者只需编写一套定制化的 rollout 函数，即可像训练 LLM 一样，轻松开启 VLM 的多轮强化学习。稳固性提升：我们实现了Rollout Router Replay机制，显著提升了 MoE 模子在 RL 训练历程中的稳固性。低精度训练：我们在 RL 场景中乐成实现了全流程 FP8 训练与采样，进一步释放了硬件性能。投契采样：我们在 RL 场景中乐成实践了投契采样，实现了大规模训练的无损加速。

在此基础上，我们更进一步，在 slime 框架上乐成复现并落地了INT4 量化感知训练（QAT）全流程计划。该计划深受 Kimi 团队 K2-Thinking 手艺报告中关于W4A16 QAT (Quantization-Aware Training)实践的启发。为了致敬先行者并回馈社区，本文将详细剖析我们在开源生态中买通全流程的手艺细节，旨在为社区提供一份兼顾稳固性与性能的可落地参考。

焦点收益概览：

突破显存瓶颈：通过权重压缩与低比特量化，使 1TB 级别的 K2 类模子能缩容至单机 H200 (141G) 显存内，阻止了跨机通讯瓶颈。训推一致：训练端使用 QAT 确保权重切合 INT4 漫衍，推理端执行 W4A16 (Weights INT4, activations BF16 ) 盘算；二者均通过 BF16 Tensor Core 举行运算，实现了媲美 BF16 全精度的训推一致性。单机效率倍增：在超大模子场景下，INT4 战略大幅降低了显存与带宽压力，Rollout 效率显著逾越 W8A8 (Weights FP8 , Activations FP8）。

本项目由 SGLang RL 团队、 InfiXAI 团队、蚂蚁集团 Asystem & 阿福 Infra 团队， slime 团队与 RadixArk Miles 团队联合完成。相关功效与 recipe 已经同步到了slime与Miles社区，接待各人试用与孝顺。我们也在更进一步向 MXFP8 与 NVFP4 提倡挑战。同时，由衷谢谢Verda Cloud为本事情提供的盘算资源。

1. 手艺计划概览

1.1 总体流程

我们实现了从训练到推理的完整 QAT INT4 闭环的计划，如下图所示：

图1 QAT INT4 全流程

在QAT 训练阶段，训练侧在维护 BF16 主权重（Master Weights）的基础上，前向撒播通过伪量化（Fake Quantization）引入量化噪声。所谓 “伪”，是指该办法并未真正将 BF16 数据类型转换为低精度的 INT4，而是坚持浮点盘算路径稳固，通过插入量化再反量化（Quant-Dequant）操作来模拟低精度的盘算。

详细而言，高精度权重在经由 “离散化映射到 INT4” 后被连忙还原，虽然其物理存储名堂仍为浮点，但数值精度已实质性降低。这种原值与还原值之间的差别引入了量化误差，在数学上等效于向网络注入了噪声，迫使模子在训练阶段就通过梯度更新去顺应这种精度损失。

反向撒播则使用STE (Straight-Through Estimator)手艺跳过了量化算子的不可导特征。量化历程的焦点操作是 “取整（Rounding）”，其数学形态为蹊径函数，导数在险些所有位置均为 0。这意味着在标准反向撒播历程中，梯度信号传导至此处会因“梯度消逝”而彻底中止，导致底层的主权重无法获得更新。

对此，STE 接纳了 “梯度透传” 战略：在反向撒播盘算时，将取整函数的导数界说为 1（即视为恒等映射）。这一机制相当于在不可导的 “断崖” 上架设了一座桥梁，让梯度能够越过取整层，有用回传至高精度的浮点权重，确保 QAT 训练链路的闭环。

在权重转换阶段，我们将训练收敛的 BF16 权重导出并执行真实量化（Real Quantization），将其转换为推理引擎适配的 INT4 名堂（如 Marlin）。

进入RL Rollout阶段，由 SGLang 加载 INT4 Weights 并执行高效的 W4A16（INT4 权重 x BF16 激活）推理，天生的履历数据（Experience）将回流至第一阶段用于下一轮 RL 训练，从而组成一个自洽的迭代闭环。

1.2 焦点战略选择

在量化名堂上，我们参考Kimi-K2-Thinking选用了INT4 (W4A16)计划。这主要思量到相比 FP4，INT4 在现有硬件（Pre-Blackwell 架构）上的支持越发普遍，并且业界已有成熟高效的 Marlin Kernel 实现。实验批注，在 1×32 量化 Scale 粒度下，INT4 动态规模富足、精度稳固，其性能与生态链路均已高度优化。作为工业界 “足够好（Good Enough）” 的量化标准，INT4 在性能、危害与维护本钱间实现理性平衡。虽然，我们后续也妄想在 NVIDIA Blackwell 系列硬件上进一步睁开 FP4 RL 的探索。

在训练要领方面，我们接纳了Fake Quantization 配合 STE的经典组合。通过维护 BF16 主权重，在前向盘算中模拟量化噪声，并在反向撒播时直通梯度，这种方法最洪流平地包管了低精度训练的收敛性与稳固性。

2. 训练侧：Megatron-LM 的伪量化刷新

2.1 Fake Quantization 与 STE 实现

图2

这一阶段的焦点目的是在训练历程中实时模拟量化误差，迫使模子 “学会” 顺应低精度体现。为此，我们接纳了Fake Quantization机制：只管权重在存储和更新时仍坚持高精度的 BF16 名堂，但在前向撒播的现实盘算中，会被暂时映射到 INT4 的精度规模加入运算。

详细实现上，我们在 megatron/core/extensions/transformer_engine.py 中的 _FakeInt4QuantizationSTE 类构建了焦点逻辑�；诜肿樽畲缶灾稻傩卸炕―ynamic Quantization），模拟 INT4 的 [-7, 7] 数值规模及截断操作，但在盘算时仍使用 BF16 类型，仅引入量化误差。

而在要害的反向撒播环节，我们引入了STE机制，确保梯度能够直接穿透量化层，不经修改地回传以更新主权重，从而包管训练的一连性。

2.2 Fake Quantization 比照实验

为了验证 QAT 计划的须要性，并探讨训练与推理精度不匹配带来的详细影响，我们设计了一组消融实验，划分在 “开启 QAT INT4 训练，BF16 Rollout” 和 “关闭 QAT 训练，直接举行 INT4 Rollout” 两种非对称场景下举行了测试，并以对数概率绝对差值（Logprob Abs Diff）作为训推纷歧致的视察指标。

图3 Rollout 侧 BF16，训练侧比照 QAT INT4 效果

图3展示了 “开启 QAT INT4 训练，BF16 Rollout” 的场景（即红线部分）�？梢钥吹�，纵然我们使用了高精度的 BF16 举行推理，误差依然显著偏高。这是由于在 QAT 历程中，模子权重已经针对 INT4 的量化噪声举行了 “顺应性调解” 或赔偿；推理时若移除量化办法，这种赔偿反而成为扰动，导致特征漫衍偏移（Distribution Shift）。

图4 Rollout 侧 INT4 Weight Only，训练侧比照 QAT INT4 效果

图4则展示了 “关闭 QAT 训练，直接举行 INT4 Rollout” 的场景（即红线部分）。这对应了古板的训练后量化（PTQ）模式。由于模子在训练阶段从未接触过量化噪声，直接将权重压缩至 INT4 不但造成信息的强烈丧失，更导致推理时的特征漫衍与训练时爆发偏移，致使误差随着训练步数泛起震荡上升的趋势。

结论：实验有力地证实，训练端的 Fake Quantization 与推理端的 Real Quantization 必需协同开启。只有当训练时的模拟噪声与推理时的真实量化精度严酷对齐，才华有用抑制训推纷歧致，阻止漫衍偏移，将误差控制在靠近基线的水平，从而真正买通低精度 RL 训练的全流程。

3. 权重更新阶段

3.1 权重流转与动态名堂适配

图5

为了复用 SGLang 在推理端已有的优化，我们直接接纳了其内置的Marlin INT4作为 INT4 的推理计划。然而，这在工程落地时我们遇到了显著的 “名堂鸿沟”：QAT 训练产出的是类似 Hugging face 上的标准名堂权重，而 SGLang 推理引擎的 Marlin Kernel 则强制要求权重必需经由特定的打包（Pack）与重排（Permute）处置惩罚，方能被 Kernel 高效读取。

面临 RL 训练中频仍的权重更新需求，首先需要解决名堂兼容性问题。为此，我们设计了一套逆向的 `restore_weights_before_loading`�；せ�。该机制使用缓存的 `_original_shapes` 元数据，能够在权重更新行动爆发前，强制将目今内存中的 Marlin 权重名堂还原（Resize）回原始形状。这一设计有用避免了因维度不匹配导致的运行时过失，确保模子能够在标准权重名堂与 Marlin 权重名堂之间平滑切换。别的，我们还在系统层面新增了 `post_process_weights` API，允许控制平面凭证训练节奏显式触发这一流程。

而针对权重加载完成后的名堂适配挑战，我们在 `compressed_tensors_moe.py` 中实现了一套动态权重治理机制。在模子权重加载竣事阶段，系统会自动触发 `process_weights_after_loading` 流程，底层挪用 `gptq_marlin_moe_repack` 与 `marlin_moe_permute_scales` 等算子，在内存中即时将标准权重转换为高度优化的 Marlin 权重名堂，从而最大化推理时的访存与盘算效率。

3.2 权重更新时的量化

图6

进入焦点的Real Quantization环节。差别于训练时的 Fake Quantization，这一步通过代码中的 `int4_block_quantize` 函数执行不可逆的精度压缩操作：基于设定的 Group Size，盘算每组权重的缩放因子（Scale），并将高精度浮点数映射到 `[-7, 7]` 的 INT4 整数域。

为了最大化显存使用率，接着执行位宽打包（Packing）操作。由于 PyTorch 缺乏原生的 INT4 数据类型，我们通过 `pack_int4_to_int32` 函数使用位运算技巧，将 8 个 INT4 数值紧凑地 “压缩” 进 1 个 INT32 整数中（即 `8 × 4 bits = 32 bits`）。最终，这些经由压缩的 Packed Weights 连同 Scale 因子被传输至推理引擎，完成了从 “训练名堂” 到 “推理名堂” 的转换。

4. 推理阶段

图7

极简打包与零开销解包

在 RL 训练的 Rollout 阶段，我们直接复用了 SGLang 优化成熟的 W4A16 量化计划。SGLang 使用紧凑的 INT4 名堂，将两个 4-bit 权重打包进一个字节，相比 BF16 节约了 75% 的内存。在推理时，Triton kernel 通过高效的位移和掩码操作（>> 4 和 & 0xF）快速解包，得益于盘算与 IO 的并行笼罩，该历程险些实现了零特殊延迟。

MoE 算子深度融合

显存优化：SGLang 引入动态的 moe_align_block_size，凭证目今 Token 数目和 Expert 漫衍自动选择 block_size ，将统一 Expert 的 Token 群集并对齐，提升显存带宽使用率。盘算融合：SGLang 引擎除集成磷七效的Marlin INT4实现、还将 gating 部分 fuse 成一个高性能的 kernel，阻止了重复启动 kernel 和读写中心效果。同时，该 INT4 推理计划兼容 GPTQ 和 AWQ 等主流量化名堂，以及支持对称与非对称两种模式。

5. INT4 QAT RL 效果

5.1 训练效果

训练侧

图8 Qwen3-235B-A22B Raw-Reward比照

图9 Kimi-K2-Thinking Raw-Reward比照

上图展示了基于 slime 框架，Qwen3-235B-A22B 与 Kimi-K2-Thinking 模子在 dapo-math-17k 数据集上的训练体现。通过比照实验发明，相较于 “BF16 训 - BF16 推” 及 “BF16 训 - FP8 推”，“BF16 训 - INT4 推” 设置下的 Raw-Reward 仍能坚持稳健增添，且其增添趋势与前两者基本一致，证实晰该计划在训练历程中的有用性。

评估侧

图10 Qwen3-235B-A22B AIME数据集评估比照

图11 Kimi-K2-Thinking AIME数据集评估比照

为了越发严谨地评估模子能力的演进，我们每隔 10 个训练步长就在 aime-2024 基准测试集上举行一次评估。上图给出了 Qwen3-235B-A22B 与 Kimi-K2-Thinking 在差别 RL 训练设置下的模子评分增添轨迹。

实验批注：“BF16 训 - INT4 推” 计划不但在评估分数上泛起出稳健的上升态势，且其性能提升的斜率与最终抵达的峰值，均与 “BF16 训 - BF16 推” 和 “BF16 训 - FP8 推” 计划坚持了较高的重合度。这种高度的一致性有力地证实晰模子在经由低比特量化后，其焦点体现能力并未受损，包管了在大幅降低盘算开销的同时，依然能够实现与全精度推理相媲美甚至完全看齐的泛化体现。

5.2 训推差别

图12

图13

为了直观评估计划效果，我们在 Qwen3-30B 与 Qwen3-235B 模子上举行了的 QAT RL 训练验证。图中 Y 轴反应了训练侧与推理侧输出的 Logprob 绝对差值，数值越低意味一致性越强。实验效果显示，INT4（绿色虚线）与 BF16 基准（红色实线）泛起出惊人的重合度，且显著低于体现出较高误差水平的 FP8（蓝色虚线）。这证实了 INT4 QAT 战略能有用规避 “BF16 训 - FP8 推” 模式下的精度损失，实现与全精度无异的训推体现。

这种一致性背后的缘故原由我们推测为两点：

截断误差抑制：训练侧的 Fake Quantization 将权重限制在 INT4 值域内。这种数值规模的约束，有用降低了矩阵乘法中 Accumulator 累加时因并行盘算顺序不确定性引发的浮点舍入误差（Floating-point Rounding Error），即改善了所谓的“大数加小数”精度丧失问题。高精度盘算：推理侧接纳 W4A16 模式，其焦点盘算全程基于BF16 Tensor Core举行，确保了运算精度与训练阶段的高度对齐。

5.3 Rollout 加速

图14 Qwen3-235B-A22B Rollout 性能比照

从 Qwen3-235B 的 Rollout 性能比照图中可以直寓目到，虽然 INT4（绿色点划线）与 FP8（蓝色虚线）均较 BF16 基线（红色实线）实现了显著加速，但两者相互之间并未拉开重大的性能鸿沟。这一征象主要受限于目今的硬件特征：由于 NVIDIA H 系列 GPU 没有原生的 INT4 Tensor Core， W4A16 计划实质上使用的照旧 BF16 Tensor Core 举行盘算，虽然大幅降低了显存带宽压力，但在吞吐上无法像 W8A8 一样使用原生 FP8 Tensor Core 举行加速从而获得盘算增益。因此，在单步推理耗时上，INT4 仅体现出微弱的优势，与 FP8 基本处于统一性能梯队。

图15 Kimi-K2-Thinking Rollout 性能比照

关于 Kimi-K2-Thinking Rollout 性能的比照。首先视察双节点场景下的通讯瓶颈：图中 FP8（红线）与 INT4（蓝线）泛起出相似的水平。由于 H 系列 GPU 缺乏原生的 INT4 盘算单位，INT4 无法在盘算层面提供加速，因此整体性能依然受限于跨节点的通讯带宽。

然而，绿线所代表的单节点体现展现了 INT4 的真正价值 —— 显存压缩。通过将模子体积减半，我们乐成将 1TB 级别的超大模子完整加载至单机显存中。这直接消除了腾贵的跨机通讯开销，将 Rollout 耗时大幅缩减。这有力地证实，在目今硬件情形下，INT4 QAT 的焦点收益在于通过压缩显存，解锁了高效的单机安排 Rollout 计划。

6. 总结与未来事情

slime 的这项事情不但证实晰在开源生态中复现工业界前沿计划的可行性，也为超大规模模子的低本钱训练探索了新的路径。我们期望这套计划助力更多开发者深入明确 QAT 手艺，并推动其在 RL 场景下的现实落地与普遍应用。

通过在开源框架上的复现，我们验证了 Kimi 团队所提出的 INT4 QAT 计划的有用性：

精度复现：在 slime 的复现实验中，我们同样视察到了 INT4 QAT 的精度优势，实现了与 BF16 基线一致的效果。效率提升：RL Rollout 阶段的吞吐提升显著，验证了低比特量化在 RL 场景下的重大价值。

未来事情：

训练端效率优化：现在，由于在训练历程中引入了 QAT Fake Quantization 盘算，带来了较大的特殊性能开销，导致逊з度显着低于 BF16 模式。这在一定水平上折损了 Rollout 阶段带来的端到端性能收益。我们后续妄想提出一套全新的优化计划，旨在解决这一训练侧的效率瓶颈，实现全链路的加速。推理侧 FP4：随着 NVIDIA Blackwell 架构的逐步普及，我们将起劲探索 FP4 精度在 RL 训练与推理中的应用可行性，以期进一步挖掘硬件潜力。

slime 在 QAT INT4 的实验不但证实晰在开源生态中复现工业界前沿计划的可行性，也为超大规模模子的低本钱训练探索了新的路径。我们期望这套计划助力更多开发者深入明确 QAT 手艺，并推动其在 RL 场景下的现实落地与普遍应用。

致谢

SGLang RL Team: Ji Li, Yefei Chen, Xi Chen, BBuf

InfiXAI Team: Mingfa Feng, Congkai Xie, Shuo Cai

蚂蚁集团 Asystem & 阿福 Infra 团队：Yanan Gao, Zhiling Ye, Yuan Wang, Xingliang Shi

RadixArk Miles Team: Chenyang Zhao, Yueming Yuan, Jiajun Li, Yusheng Su, Mao Cheng, Tom, Banghua Zhu

slime Team: Zilin Zhu, Chengxing Xie, Lei Li, Haisha Zhao

??时势1：下一篇极16p

??02月05日,多地启动精细化预案确保雨雪寒潮天气市民“菜篮子”供应量足价稳,

　　三更时分，一头凶兽飞来，下降在庄子的外面，这是一头独角人熊，高能有三丈，全身呈淡金色，头上长有一只黄金角，背后有一对同党，能飞天而行。

,美女扣逼网站。

??02月05日,“有偿咨询”需警惕浙江公布侵犯商业秘密典型案例,

　　可是男子并不剖析，基础就没有停步，直接大步向前走，就要离去。而他身边的人则是转头，嗤笑了一声，眼神带着戏谑，连他们都没有想到这么容易。

,人人操人人干人人骑,国产做受91 一片二,18禁无遮挡的网站。

??时势2：黄页高清网站免费视频在线观看

??02月05日,海南公布民营企业50强营收规模较上年增长超50%,

　　“小兔崽子我叫你惹事，给我站�。　�

,久久橾视频播,成动漫无码视频观看网站,国产综合在线观看精品字幕。

??02月05日,“五洲侨心促统情”海外代表人士主题交流活动在北京举行,

　　⑵对村内兴办重至公益事业项目，实验“一事一议”。村内举行农田水利基本建设、修建村级蹊径等公益事业，所需劳务和资金，凭证“谁受益、谁肩负”的原则，先由支部探讨，再由村民大会民主讨论决议，事前要明确项目和筹资方法及招标方法，事中要落实责任和增强监视，事后要果真帐目。

,ehryje.loan 居家自插,特爱做a爰片毛片免费看韩,一级欧美一级日韩片66网。

??时势3：第一次破处视频

??02月05日,科摩罗现任总统阿扎利赢得新一届总统选举,　　新华社南昌6月12日电记者从江西省上饶市相关部分获悉，6月12日14时许，一架直升机在江西省上饶市鄱阳县凰岗镇航行历程中坠落。记者起源相识到，事发时机上载有3人，现在外地正在组织搜救。（记者万象、姚子云、程迪）,免费黄色网站理论,91精品福利国产在线,女同一区二区三区。

??02月05日,“网红主播”是员工还是伙伴？,

　　四是进一步增强村级班子的协力。村党支部书记和村委会主任作为村级两个主要组织的认真人，两者的关系怎样，将直接影响农村下层组织和各项事情的开展，准确处置惩罚好两者的关系，能切实增强村级组织的协力。为此，我们要做到以下几点：一要分清职责，细密相助。从理论上讲党支部书记主持认真村党组织事情，村委会主任主持认真村委会事情，职责是明确的。但现实上，村党支部的事情和村委会的事情在有些方面是交织、渗透的。因此有须要凭证事情需要，凭证优势互补的原则，围绕党支部和村委会的事情目的，确定各自分担的内容，使责任明确，各负其责，阻止推诿扯皮或相互争权。但同时又要做到，既分工明确，又亲近相助，提高事情的整体效益。二要相互交流，相同头脑。村党支部书记应实时向村委会主任转达上级的指示、事情信息，起劲支持村委会主任自力事情，依法行使职权;村主任对村重大经济建设和较大经济支出，要实时向支部书记汇报，在作出重大决议前，村党支部书记与村委会主任应碰头通气，统一熟悉。三要襟怀坦率，明确支持。相互间的友谊、体贴和支持是最主要的。村党支部书记与村委会主任要自觉做到不争权力巨细、只比孝顺几多，以事业为重，阵势为重，大事讲原则，小事讲气概，不盘算小我私家得失和恩仇，一切为了配合把村里的各项事情搞好。四要发明矛盾，实时化解。在村党支部书记与村委会主任关系处置惩罚不当爆发矛盾时，两者要实时调解心态、明确位置，分清是非，做好事情，化解矛盾，不要等问题成了堆，再行止置解决。

,性欧美BBw性A片免费APP,帝王夫妻双狗抢黄金lvk,骚0被干爽到哭漫画免费下拉式。

??时势4：午夜欧美一级直播

??02月05日,广西加快页岩气勘探开发积极发展新质生产力,

　　今天，安科瑞乐成上岸海内资源市场，这是公司生长历程中的一个主要里程碑，也是一个新起点、新动力。我们将牢牢紧抓这一名贵机缘，一如既往，继续起劲，通过实现募投项目，提升优势产品的一连开发和立异升级能力，继续实现业绩快速增添，最大限度地实现客户、员工、社会与股东的共赢!

,视频高h,特级毛片A级毛片免费播放100,人人看人人摸人人摸。

??02月05日,5月CPI总体平稳物价保持基本稳定有坚实基础,

　　这也许是时机，这块骨蕴含了太多的杀戮气息，造过诸多大杀劫，穿山甲为了炼化它，将自家命源弄的险些裂开，差点死掉。

,免费男女囗交视频在线观看,日比视频免费,国产男女无套观看91社区聊骚。

【点“绿”成金谋发展：建设人与自然和谐共生美丽中国】

【博茨瓦纳为45名复活节交通事故遇难者举行葬礼】

责编：亚历克西斯

审核：朱开央

责编：宋濂

k1体育麻将胡了

致敬Kimi K2：基于slime的全流程INT4量化感知RL训练