!脱 让学生 免费,拒绝平凡,让每一次打开都充满新鲜与期待

k1体育麻将胡了

搜索 猫眼影戏 融媒体矩阵
  • 山东手机报

  • 猫眼影戏

  • 公共网官方微信

  • 公共网官方微博

  • 抖音

  • 人民号

  • 天下党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

字节Seed:大看法模子来了,推理的何须是下一个token

2026-01-08 16:10:56
泉源:

猫眼影戏

作者:

腾霄

手机审查

  猫眼影戏记者 张军博 报道Q8X2R7L1T4J5M9B6W3

henry 发自 凹非寺量子位 | 公众号 QbitAI

LLM的下一个推理单位,何须是Token?

刚刚,字节Seed团队宣布最新研究——

DLCM(Dynamic Large Concept Models)将大模子的推理单位从token(词) 动态且自顺应地推到了concept(看法)层级 。

DLCM通过端到端地方法学习语义界线,动态地将Token序列支解成看法,在压缩后的看法空间中举行深度推理,并借助因果交织注重力将看法级推理效果重构为Token级展望

由此,古板LLM中基于匀称、冗余Token信息密度的盘算分派,被转化为面向看法的动态推理与自顺应算力分派 。

在以推理为主的基准使命上,DLCM在将推理阶段FLOPs降低34%的同时,还将平均准确率提升了2.69%

这也意味着,大模子的推理效率并不必定依赖更麋集的Token级盘算,而可以通过更高层级的语义组织来获得 。

接下来,我们详细来看 。

分层的下一token展望框架

如上所说,DLCM的焦点在于学习动态的Token-看法映射,实现了盘算资源的自顺应分派 。

之以是这样做主要有两方面缘故原由:

一方面,在自然语言中,信息的漫衍并不是匀称的,而是集中在集中在少数语义转换的节点上 。

然而,在目今的LLM中,所有token被统一处置惩罚,信息密度不匀称的自然语言消耗了同样的盘算量,造成了大宗的冗余与模子容量的错配 。

另一方面,此前基于潜在推理的框架,如大型看法模子(Large Concept Model, LCM)等,不但需要单独训练编码器息争码器,还依赖人为划分的牢靠的、句子级别的粒度,缺乏拓展性与自顺应性 。

针对这些问题,DLCM通过一种分层的下一token展望框架,将盘算重心转移到压缩后的语义空间,实现了更高效的深度推理 。

详细来说,这一框架包括四个阶段:

首先,在编码阶段,DLCM通过一个编码器,提取细粒度的Token级体现,捕获局部上下文信息,作为界线检测和最终Token级解码的基础 。

接下来,在动态支解阶段,模子基于Token级体现,盘算相邻Token之间在潜在空间中的局部不相似性(使用余弦距离),当不相似度凌驾阈值时,模子判断为一个语义断点(看法界线) 。

与牢靠句子长度差别,DLCM端到端地学习这些界线,实现内容自顺应的支解 。

它将统一片断内(即统一看法内)的所有Token体现举行均值池化(Mean Pooling),然后投影到更高维度的看法维度上,最终形成一个长度大大压缩的看法序列  。

然后,在看法级推理阶段,模子将上面获得的看法序列在压缩空间中举行深度的、高容量的推理,获得经由深度推理和信息整合后的看法体现 。

最后,在Token级解码阶段,DLCM使用经由推理的看法体现,重构并展望下一个token 。

由此,DLCM通过以上四个办法,乐成地将盘算分派从低效的Token-Token交互,转移到高效的Token-看法-Token 交互,实现了盘算资源的自顺应、结构化使用 。

要害手艺突破与优化

虽然DLCM架构在设计上实现了Token级和看法级?榈囊旃,但同时也引入了新的工程和训练挑战 。

全局剖析器(Global Parser):内容自顺应压缩

DLCM 的焦点优势在于它能够凭证信息密度动态地划分看法 。

例如,关于信息冗余度高的代码或简朴文本,可以激进地压缩;关于语义重大的转折点,则坚持较低压缩比 。

为实现这一点,研究引入了全局剖析器(Global Parser)和辅助损失函数 。

这个机制的要害在于:它不要求单个序列严酷遵照目的压缩比 ,而是在整个Batch层面约束平均界线天生率 。

这使得DLCM在共享全局压缩比例目的的条件下,实现了随领域转变、随内容波动的自顺应分段,从而将盘算资源精准地分派到语义最要害的区域 。

针对Flash Attention的效率优化

在解码阶段,Token需要通过因果交织注重力关注其所属的看法 。

由于每个看法包括的Token数目是转变的,若是直接实现,会严重依赖效率低下的动态掩码和不规则的内存会见 。

针对这一问题,研究引入看法复制(Concept Replication)战略 。它将看法特征沿着序列维度复制扩展,使其长度与原始Token序列对齐 。

由此,研究将重大的可变长交织注重力问题转换为长度对齐、局部恒定的注重力问题,并使其能够使用高度优化的Flash Attention Varlen内核,获得了1.26倍到1.73倍的显著加速 。

异构架构的稳固训练

由于DLCM 的Token级组件和看法级主干网络的宽度纷歧致,通过上投影毗连,无法共享简单有用学习率 。

为解决这一问题,研究接纳解耦的最大更新参数化,为Token?楹涂捶?榉峙闪俗粤Φ目矶人醴乓蜃,并发明各组件的有用学习率应与其宽度的倒数成比例缩放 。

由此,研究乐成地稳固了这种不等宽架构的训练,并实现了零样本超参数迁徙,即小型署理模子上找到的最佳学习率可以直接用于训练更大的DLCM模子 。

量化最优分派点

除上述优化外,研究还进一步基于scaling law探讨了token级处置惩罚与看法级推理之间的最优分派 。

研究发明,在牢靠压缩比下,架构效率在中等看法主干占比处抵达峰值,而非随看法容量枯燥提升 。

更主要的是,这一最优设置在规模增大时优势愈发明显:随着基线模子变大,在性能对齐的条件下,DLCM可实现越来越显著的FLOPs节约 。

在实验阶段,研究接纳了与LLaMA论文中报告的相同的全局批次巨细、学习率和序列长度,让每个模子都在1T Token上举行训练 。

其中,DLCM实现了43.92%的平均准确率,凌驾了基线模子41.23%的分数,提升了2.69% 。

One more thing

这篇论文的一作来自英国曼彻斯特大学的在读博士生Qu Xingwei,师从Chenghua Lin教授 。

他的研究偏向聚焦于大语言模子(LLMs),主要包括预训练、微调、专家混淆(Mixture of Experts)以及System-2大语言模子 。

在教育配景方面,他本科结业于北京航空航天大学,导师为段海滨教授;硕士就读于获慕尼黑工业大学,导师为Daniel Cremers教授 。

在读博前,他曾在字节跳动和小鹏汽车担当研究工程师 。

[1]https://x.com/GeZhang86038849

[2]https://arxiv.org/abs/2512.24617

??时势1:美女张开腿黄网站免费直播

??01月08日,艺考之路,

本文将围绕京东怎样协商这一问题睁开讨论,包括逾缘故原由、协商方法、注重事项等面的内容,希望能资助各人解决相关问题 。 1. 京东的缘故原由是什? 京东主要是由于借人未准时还款导致的 ?赡苁怯捎诮人资金周转畅,或者是由于其他缘故原由导致无法准时偿 。在借历程中,借...

,中文字幕在线2020 。

??01月08日,汇丰亚太发行45亿元人民币熊猫债,

  述职中的不当之处,恳请组织和同志们多提名贵意见 。我将虚心明确,认真看待,起劲改善和提高自我的事情本事和水平 。

,国产精品911在线观看,久久免费A级片观看,别揉我奶 。

??时势2:A级毛片免费无码

??01月08日,海外网评:中欧经贸开放合作才是正道,

  海面都红了,漂浮着众多遗体,各个种族的都有,喊杀震天,鲲鹏之无上宝术将出,各族精英尽出 。

?第二百三十三章 冲突与强势,911国产主播在线观看,欧美淫荡性爱视频,欧美一级成年午夜大片在线看 。

??01月08日,第九届德国“中国曲艺周”在柏林首演,

  同砚们,要知道人生离不开拼搏,就犹如你们不可拒绝生长一样 。没有勤劳起劲是不可能有成绩的 。这样的例子有许多许多,不枚胜举,触目皆是 。邓亚萍平时用铁拍子训练,震撼天下的北京奥运会开幕式十万人苦苦训练了三年,一个燃烧仪式让李宁破晓一点训练到天亮,足足一个月,每一个获得金牌的运发动背后有几多汗水泪水甚至于鲜血 ?梢运得恳晃挥谐杉ǖ娜硕荚ζ床⑵鹁⑻剿鞴 。勤劳学习是成为“天才”、“神童”的先决条件 。经科学家研究,人是智力是有差别的,可是仅仅是差一点点罢了 。以是说,“天才”、“神童”是靠人们勤劳学习而成为的 。正所谓“勤劳成绩未来” 。

,一区一区一区内内一级,国外狂笑lvkTK,高清毛片在线播放不卡 。

??时势3:色视频在线看网站免费大

??01月08日,国务院关于《青岛市国土空间总体规划(2021—2035年)》的批复,

  ……

,亚洲黄片无码,亚洲乱伦性视频专区,国产性爱在线观看 。

??01月08日,“消失”50多年的峰斑林蛙重现四川峨眉山,  上外洋国语大学中东研究所教授范鸿达体现,中国与西方国家的主要关系也可能进一步诠释中国游客对中东的兴趣增添 。“中国与西方的关系并非处于最佳时期 。现在的关系状态可能是一些人想要会见中东而不是西方的一个缘故原由 。”,无尽 大胸 动漫 警花,乱仑AV,黄色小网站淫叫刺激欧美国产 。

??时势4:欧美性爱交欧美性爱视频欧美性丿爱交视频欧美性爱交视频:欧美性爱交视频

??01月08日,眼睛干干的,是得了干眼症吗?| 呵护眼健康,

  三是党委委员的人数和作用差别 。以前我们学校党委成员的人数一直是21人,第十一次党代会是23人,增添了2人 。已往的党委委员一年可能开一次会或者两年开一次会、一年开两次会,一样平常情形下都是举手表决 。凭证北京市委关于增强和刷新高校党建事情的决议精神,第十一次党代会上我们将做一个决议,党委委员要加入重大问题的决议,就是说党委委员不但仅是开会只举手和表决,党委委员要加入学校党建和事业生长的重大问题的决议,以是党委委员的比例、结构就很主要 。党委委员自己的头脑政治素质、科学知识结构、认知水平、参政议政能力就很主要,要确保把优异的或向导干部选进党委 。

,曼珠沙华翻白眼流眼泪,欧美亚一区二区三区,欧美激情高潮老外a一级 。

??01月08日,WTT新加坡大满贯:王楚钦、孙颖莎晋级 林高远止步首轮,

  “惋惜,青鳞鹰大婶带着紫云、大鹏、小青他们去磨砺与修行了,不知身在何方,不然必定是一股极强的战力 。”小不点遗憾 。

,日本色色色色色色色色色网,旧里番别揉了~乳喷了H,美女摸jiji秘 隐私无遮挡 。

【多所高校提出使用AI的多个“禁止” 学术论文使用AI边界在哪儿?】

【中新网评各地文旅火出圈:“面子”好了,更要做好“里子”】

责编:横尾善一

审核:雷泽浩

责编:波尔斯

相关推荐 换一换

Copyright (C) 2001-   dzwww.com. All Rights Reserved

新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证

山东省互联网传媒集团主理  联系电话:0531-85193202  违法不良信息举报电话:0531-85196540

鲁ICP备09023866号-1   鲁公网安备 37010202000111号  

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

网站地图