美团LongCat团队：词汇库升级提升AI性能

思量这样一个场景：当你想让一小我私家变得更智慧时，你会怎么做？古板的做法可能是找更多的专家来资助，但美团LongCat团队的研究职员发明了一个更巧妙的要领——让这小我私家的"词汇库"变得更富厚。这项突破性研究揭晓于2026年1月，论文编号为arXiv:2601.21204v1，为大型语言模子的生长开发了全新的蹊径。

目今的大型语言模子就像一个拥有众多专家照料的智囊团，这些专家被称为"专家混淆模子"（MoE）。每当模子需要处置惩罚问题时，它会选择几个最合适的专家来协作解决。这种要领确实有用，但随着模子规模的一直扩大，研究职员发明了一个问题：专家越来越多，但效果提升却越来越小，就像一个聚会室里坐满了照料，但真正施展作用的却有限。

更主要的是，这种古板要领面临着严肃的手艺瓶颈。当专家数目增添时，它们之间的相同本钱急剧上升，就像一个重大的公司里部分间的协调本钱会随着部分数目增添而急速攀升。这种相同开销不但消耗大宗的盘算资源，还会拖慢整个系统的运行速率。

美团LongCat团队的研究职员却另辟蹊径，他们将注重力转向了一个被忽视的维度——embedding scaling（嵌入缩放）。用通俗的话说，就是让模子的"词汇明确能力"变得更强。这就好比与其请更多的翻译专家，不如让现有的翻译掌握更富厚的词汇和短语搭配。

研究团队接纳了一种叫做"N-gram嵌入"的手艺，这个手艺的焦点头脑相当巧妙。古板的模子在明确一个词时，只会单独看这个词自己，就像阅读时只关注单个字母。而N-gram嵌入则会同时思量这个词和它前后的词组合，就像阅读时会注重词组和短语的寄义。这样，模子就能更好地明确语言的上下文关系和玄妙寄义。

为了验证这种新要领的效果，研究团队举行了大规模的比照实验。他们训练了多个差别规模的模子，从2.8亿到13亿个激活参数不等，并在3000亿个token的语料库上举行预训练。实验效果令人兴奋：在特定条件下，通过扩展嵌入参数来增添模子总参数，比纯粹增添专家数目能获得更好的性能提升。

一、发明最佳时机：何时使用词汇库扩展战略最有用

研究团队发明，嵌入扩展的效果并不是在任何情形下都最优的，它需要在合适的时机使用才华施展最着述用。这就像烹饪时添加调料一样，时机很主要。

通过大宗实验，研究职员绘制出了差别扩展战略的性能曲线。他们发明，当专家数目较少时，古板的专家扩展要领效果更好，由于此时增添专家能够显著提升模子的处置惩罚能力。可是，随着专家数目的增添，这种提升效果最先递减，就像一个厨房里已经有许多厨师时，再增添厨师反而可能造成杂乱。

要害的转折点泛起在模子的希罕度抵达一定水平时。研究团队用"总参数与激活参数的比值"来权衡这个希罕度。当这个比值较低时，说明模子相对较麋集，此时增添专家的边际效益很高。但当比值凌驾某个阈值（通常在模子希罕度较高时），继续增添专家的效果就不如扩展嵌入参数了。

这个发明为模子设计提供了主要指导：N-gram嵌入应该在专家数目凌驾其"甜蜜点"时引入。这意味着，关于已经拥有大宗专家的大型模子，与其继续增添专家，不如将资源投入到增强模子的词汇明确能力上。

二、全心设计的集成战略：怎样巧妙地平衡种种因素

在确定了使用嵌入扩展的最佳时机后，研究团队还需要解决怎样详细实验的问题。这个历程就像调配一道重大的菜肴，需要准确控制种种配料的比例和添加顺序。

首先是参数预算的分派问题。研究团队发明，虽然扩展嵌入参数能带来性能提升，但并不是越多越好。通过仔细剖析性能曲线，他们发明当N-gram嵌入参数占总参数预算的50%以上时，性能反而会下降。这就像做菜时调料放太多会掩饰食材自己的味道一样。因此，研究团队建议将不凌驾50%的总参数预算分派给N-gram嵌入。

其次是哈希冲突的问题。N-gram嵌入手艺使用哈希函数来映射差别的词组合，但有时差别的词组可能被映射到统一个位置，造成冲突。研究团队发明，词汇表巨细的选择对镌汰这种冲突至关主要。他们通太过析发明，当N-gram词汇表巨细靠近基础词汇表巨细的整数倍时，哈希冲突会显著增添。为了阻止这个问题，他们建议N-gram嵌入的词汇表巨细应该显着偏离基础词汇表巨细的整数倍。

在超参数设置方面，研究团队测试了差别的N-gram阶数（N值）和子表数目（K值）的组合。他们发明，当N和K都设置为最小值时，模子性能显着不佳。但当N≥3且K≥2时，差别设置之间的性能差别变得相对较小，这批注模子在这个参数规模内具有较好的鲁棒性。实践中，他们推荐将N设置在3到5之间，这样既能捕获足够的上下文信息，又不会由于太过希罕而影响学习效果。

特殊值得注重的是嵌入放大手艺的应用。研究团队在早期实验中发明，若是差池嵌入�？榫傩刑厥獯χ贸头�，N-gram嵌入的孝顺可能会被其他�？榈氖涑�"淹没"。通过层级剖析，他们发明第一个注重力�？榈氖涑鯨2范数比嵌入�？榈氖涑鲈寄�10倍。这意味着在残差毗连中，注重力输出会主导信息流，而嵌入信号会被边沿化。

为相识决这个问题，研究团队探索了两种嵌入放大战略。第一种是引入缩放因子，通常设置为√D（其中D是隐藏维度），来放大嵌入输出。第二种是在嵌入输出与残差分支合并前应用层归一化。这两种要领都能有用确保嵌入信号在前向撒播中获得充分使用，实验效果显示能够在逊ю失和验证损失上都获得约0.02的一致改善。

三、模子宽度与深度的影响：差别架构下的最佳战略

研究团队进一步探索了模子架构对嵌入扩展效果的影响，这个发明关于现实应用具有主要指导意义。

在模子宽度方面，研究效果显示了一个令人鼓舞的趋势。随着模子宽度（即激活参数规模）的增添，N-gram嵌入相关于古板专家扩展的优势变得越发显着。详细来说，在2.8亿激活参数的模子中，N-gram嵌入只有在较低的参数比值规模内才华逾越专家扩展。但在7.9亿激活参数的模子中，N-gram嵌入的优势规模显著扩大。而到了13亿激活参数的模子中，纵然在相当高的参数比值下，N-gram嵌入仍能坚持显着的性能优势。

这种征象可以用一个生动的比喻来明确：就像一个大型图书馆比小型图书馆更能从富厚的索引系统中受益一样，更宽的模子能够更好地使用增强的词汇明确能力�？砟Ｗ佑涤懈蟮谋碚骺占�，能够更有用地存储和使用N-gram嵌入提供的富厚语言信息。

然而，模子深度的影响却泛起出相反的趋势。研究团队测试了10层、20层和40层的差别深度模子，发明随着层数的增添，N-gram嵌入的相对优势逐渐减小。这是由于在预归一化架构中，来自嵌入层的信息需要通过残差毗连撒播到更深的条理，但随着深度增添，早期层的直接影响会逐渐衰减。

这个发明对现实应用具有主要意义。目今主流的语言模子通常深度不凌驾40个shortcut层（相当于80个古板层），而它们的宽度却在一直增添。研究效果批注，在这种生长趋势下，N-gram嵌入的优势将会越发突出，由于宽度的扩展能够放大其效果，而深度的适中规模不会显著削弱其孝顺。

四、推理效率的突破：从理论优势到现实加速

将N-gram嵌入的理论优势转化为现实的推理加速是这项研究的另一个主要孝顺。研究团队不但证实晰嵌入扩展在训练效果上的优势，还乐成地将这种优势转化为了现实的系统性能提升。

N-gram嵌入机制实现了一个巧妙的参数重新分派：它将参数从MoE层转移到嵌入空间。这种架构调解在坚持总参数目稳固的同时，镌汰了MoE层内的激活参数数目。关于那些受内存I/O限制的大token数目解码场景，这种改变带来了显著的优势。

更主要的是，增添嵌入层巨细不会带来延迟处分，由于嵌入查找的盘算本钱与输入token数目成正比，而不是与嵌入参数总数成正比。这就像查字典一样，无论字典有多厚，查找单个词汇的时间都是相对牢靠的。

为了充分使用参数希罕性带来的效率提升，研究团队熟悉到需要通过大批量处置惩罚来最大化硬件使用率。这自然地与推测解码手艺形成了协同效应。多步推测解码能够有用扩大"有用批量巨细"，从而将理论上的参数希罕性优势转化为现实的推理加速。

然而，将参数从专家重新分派到N-gram嵌入也带来了新的挑战。相比标准嵌入层，N-gram嵌入在I/O、盘算和通讯方面都引入了特殊开销。现代推理框架的重大调理机制使得预先确定前向撒播简直切token序列变得难题，这进一步重大化了N-gram嵌入查找的优化。

为相识决这些挑战，研究团队开发了N-gram缓存，这是一个专门的缓存机制，设计灵感泉源于KV缓存的乐成实践。他们实现了定制的CUDA内核来直接在装备上治理N-gram ID，实现与种种推理优化手艺的低开销同步。这种设计显著提升了N-gram嵌入的盘算效率。

在推测解码场景中，由于底稿模子通常层数较少且延迟更低，N-gram嵌入的开销会变得相对越发显着。为了缓解这个问题，研究团队提出了两个互补的优化战略：为底稿模子使用古板嵌入层以阻止更腾贵的n-gram查找；在底稿阶段缓存n-gram嵌入，以消除后续验证办法中的冗余盘算。

五、LongCat-Flash-Lite：理论转化为实践的乐成案例

基于前述所有研究发明，美团LongCat团队开发了LongCat-Flash-Lite模子，这是一个重新最先训练的大型语言模子，充分展现了嵌入扩展战略的现实效果。

LongCat-Flash-Lite接纳与LongCat-Flash相同的基础架构，总共包括14个shortcut层，拥有685亿个总参数。凭证上下文的差别，模子会动态激活29亿到45亿个参数，这种动态激活机制得益于零专家的设计。在每个shortcut层中，MoE�？橛�256个FFN专家和128个零专家组成，每个token会选择12个专家举行处置惩罚。特殊值得注重的是，该模子包括314亿个N-gram嵌入参数，占总参数目的46%，这一比例恰恰切合研究团队发明的最佳参数分派战略。

模子的训练历程遵照了与LongCat-Flash-Chat相同的数据配方。首先在11万亿个token上举行预训练，序列长度为8k；然后举行15万亿token的中训练，将序列长度扩展到128k；最后在SFT数据上举行监视微调。为了支持扩展的上下文处置惩罚，研究团队在32k序列长度的训练阶段实现了YARN手艺，使LongCat-Flash-Lite能够处置惩罚高达256k token的序列。

为了验证嵌入扩展战略的有用性，研究团队还训练了一个比照模子LongCat-Flash-Lite-Vanilla，该模子具有完全相同的总参数目，但通过将所有N-gram嵌入参数转换为特另外专家来实现。两个模子使用完全相同的训练战略和数据配方，确保了较量的公正性。

在整个训练历程中，LongCat-Flash-Lite始终坚持比LongCat-Flash-Lite-Vanilla更低的逊ю失，这直接证实晰嵌入扩展战略的优势。为了周全评估模子性能，研究团队在涵盖三个焦点能力领域的基准测试上举行了评估：通用使命包括MMLU、MMLU-Pro、C-Eval和CMMLU；推理使命包括BBH、GPQA、DROP和GSM8K；编程使命包括HumanEval+、MultiPL-E和BigCodeBench。

评估效果令人鼓舞：LongCat-Flash-Lite在绝大大都基准测试上都显著逾越了LongCat-Flash-Lite-Vanilla。这些发明验证了研究团队的焦点假设：当希罕度抵达足够水平时，通过N-gram嵌入来战略性地扩展总参数，同时坚持嵌入参数的最佳比例，始终优于仅仅增添专家数目的要领。

六、谈天模子的卓越体现：在现实应用中的突出能力

LongCat-Flash-Lite的谈天版本在多个现实应用场景中展现出了卓越的性能，特殊是在智能体工具使用、智能体编程、通用领域知识和数学推理等方面。

在智能体工具使用使命中，LongCat-Flash-Lite体现精彩，在所有较量模子中建设了显着的领先优势。在τ2-Bench基准测试中，它在所有三个子场景中都获得了最高分：电信场景得分72.8，零售场景73.1，航空场景58.0。特殊是在电信场景中，它的体现显著逾越了Gemini 2.5 Flash-Lite和Kimi-Linear-48B-A3B。这突出了模子在处置惩罚重大工具依赖关系和特定领域使命执行方面的卓越能力。在VitaBench测试中，它获得了7.00的高分，凌驾了Qwen3-Next-80B-A3B-Instruct的5.80分和Gemini 2.5 Flash-Lite的4.50分，这进一步证实晰模子在通过工具集成处置惩罚重大现实天下使命事情流方面的优越能力。

在编程相关使命中，LongCat-Flash-Lite展现出了卓越的现实问题解决能力。在SWE-Bench测试中，它抵达了54.4的准确率，大幅逾越了所有基线模子——比Qwen3-Next-80B-A3B-Instruct的37.6、Gemini 2.5 Flash-Lite的41.3和Kimi-Linear-48B-A3B的32.8都有显著提升。这批注模子在解决现实软件工程问题（包括过失修复和功效实现）方面的熟练水平。在评估终端下令执行能力的TerminalBench中，LongCat-Flash-Lite获得了33.75的领先分数，远超Qwen3-Next-80B-A3B-Instruct的15.19、Gemini 2.5 Flash-Lite的20.0和Kimi-Linear-48B-A3B的20.0，体现了其在明确和执行对开发者导向智能应用至关主要的终端相关指令方面的强盛能力。

在跨语言编程能力方面，LongCat-Flash-Lite在SWE-Bench多语言测试中取得38.10的效果，凌驾了Qwen3-Next-80B-A3B-Instruct的31.3和Kimi-Linear-48B-A3B的37.2，展现了在多语言开发情形中的可靠顺应性。在PRDBench测试中，它获得39.63的高分，显著凌驾Qwen3-Next-80B-A3B-Instruct的15.36，研究团队视察到该模子能够自主编写单位测试来验证其开发事情，产出更高质量的代码客栈。

在通用领域知识使命方面，LongCat-Flash-Lite提供了平衡且具有竞争力的性能。在MMLU测试中，它获得85.52分，与Gemini 2.5 Flash-Lite的84.68和Kimi-Linear-48B-A3B的79.91相当，仅略低于Qwen3-Next-80B-A3B-Instruct的89.28。在中文特定基准测试中，它在CEval和CMMLU上划分获得86.55和82.48分，相比Kimi-Linear-48B-A3B的78.48和76.26以及Gemini 2.5 Flash-Lite的75.16和72.06都有显著优势。在GPQA-Diamond测试中，它获得66.78分，在基准性能规模内坚持了竞争力。关于MMLU-Pro，它抵达78.29分，在处置惩罚更具挑战性的多使命语言明确问题上展现了扎实的性能。

在数学推理能力方面，LongCat-Flash-Lite在基础和高级使命中都展现出了强劲的数学推理能力。在MATH500上，它抵达96.80的准确率，靠近Qwen3-Next-80B-A3B-Instruct的98.00，并逾越了Gemini 2.5 Flash-Lite的95.20。在高级数学竞赛基准测试中，它取得了令人印象深刻的效果：AIME24得分72.19，AIME25得分63.23。这些分数逾越了Kimi-Linear-48B-A3B的70.52和59.58，以及Gemini 2.5 Flash-Lite的63.33和50.1，突显了模子处置惩罚重大多步数学推导的能力。

七、系统级优化：让理论优势变为现实速率提升

为了将极端希罕激活带来的理论优势转化为现实的推理加速，研究团队实验了一系列系统级优化。这些优化就像为一台细密机械设置了最合适的运行情形，让其能够施展出最大性能。

由于模子具有极端的激活希罕性，充分使用GPU内存带宽需要较大的有用批量巨细。研究团队接纳"Eagle3"手艺安排模子，配合"3步推测解码战略"。类似于之前的优化实践，他们接纳了宽Expert Parallel和Single Batch Overlap来加速推理速率。虽然这些优化乐成扩大了有用批量巨细，但模子的轻量化特征使得瓶颈转移到了内核启动开销上，这给维持高GPU占用率带来了挑战。

为相识决这个问题，研究团队实现了多项系统级优化。在内核优化方面，他们应用了普遍的内核融合来镌汰执行开销和内存流量。详细来说，所有TP组内的通讯操作都与后续的细粒度内核融合，包括AllReduce + 残差相加 + RMSNorm、AllGather + Q-Norm + KV-Norm，以及ReduceScatter + RMSNorm + 隐藏状态合并。关于量化模子，他们将每个激活量化办法集成到现有操作中，包括前述的通讯融合内核和SwiGLU组件。别的，路由器逻辑处置惩罚（Softmax + TopK + 路由器缩放）和零专家选择被整合到简单统一内核中。

在注重力合并优化方面，他们在解码阶段接纳splitkv-and-combine战略。当KV支解数目较高时，合并操作可能爆发显著延迟，有时与盘算自己相当。通过优化合并内核，他们有用地将其延迟镌汰了50%。

研究团队还使用了程序化依赖启动（PDL）手艺，允许依赖内核通过触发早期启动来重叠执行。这种机制不但消除了一连内核之间的间隙，还提高了SM使用率。

基于这些综合优化，LongCat-Flash-Lite在8xH800-80G设置下实现了卓越的推理性能。在输入序列长度为4K、输出序列长度为1K的设置下，模子展现出了优异的吞吐性能体现。这些现实测试效果证实晰从理论优势到系统性能提升的乐成转化。

说究竟，美团LongCat团队的这项研究展现了一个主要的新偏向：在大型语言模子的生长历程中，我们不必总是依赖增添更多的"专家"来提升性能。有时间，让模子更好地明确词汇之间的关系和组合，反而能取得更好的效果。这就像学习一门外语时，与其背诵更多单词，不如深入明确词汇的搭配和用法一样。

这项研究的意义远不止于手艺层面的突破。关于通俗用户而言，这意味着未来的AI助手可能会变得越发智慧和高效，同时运行本钱可能会更低。关于企业来说，这种新的扩展战略提供了一条更经济、更可一连的AI生长路径。而关于整个AI行业，这项研究开发了一个全新的研究偏向，可能会影响未来几年大型语言模子的生长轨迹。

LongCat-Flash-Lite模子的乐成实践证实晰这种新要领的可行性。它不但在种种使命上体现精彩，特殊是在编程和工具使用方面展现出了突出能力，更主要的是验证了嵌入扩展战略在现实应用中的价值。这为后续研究者提供了名贵的参考，也为AI手艺的进一步生长指明晰新的偏向。

**Q&A**

Q1：N-gram嵌入手艺是什么？

A：N-gram嵌入是一种让AI模子更好明确词汇组合的手艺。古板模子明确一个词时只看这个词自己，而N-gram嵌入会同时思量这个词和它前后的词组合，就像阅读时注重词组和短语寄义一样，让模子能更好地明确语言的上下文关系。

Q2：为什么嵌入扩展比增添专家更有用？

A：当专家数目增添到一定水平后，它们之间的相同本钱会急剧上升，效果提升却越来越小。而嵌入扩展是通过增强模子的词汇明确能力来提升性能，不会增添专家间的协调开销，在高希罕度模子中能获得更好的性能提升。

Q3：LongCat-Flash-Lite模子有什么特殊之处？