国产一级永久免费在线,拒绝平凡,让每一次打开都充满新鲜与期待

k1体育麻将胡了

搜索 猫眼影戏 融媒体矩阵
  • 山东手机报

  • 猫眼影戏

  • 公共网官方微信

  • 公共网官方微博

  • 抖音

  • 人民号

  • 天下党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

MiniMax海螺视频团队首次开源:Tokenizer也具备明确Scaling Law

2025-12-29 05:33:32
泉源:

猫眼影戏

作者:

潘韦辰

手机审查

  猫眼影戏记者 肖霈 报道Q8X2R7L1T4J5M9B6W3

MiniMax海螺视频团队不藏了!

首次开源就揭晓了一个困扰行业已久的问题的谜底——

为什么往第一阶段的视觉分词器里砸再多算力  ,也无法提升第二阶段的天生效果?

翻译成明确话就是  ,虽然图像/视频天生模子的参数越做越大、算力越堆越猛  ,但用户现实体验下来总有一种玄妙的感受——这些重大的投入与产出似乎不可正比  ,模子离完全真正可用总是差一段距离。

So why?问题  ,或许率就出在视觉分词器(Tokenizer)这个工具身上了。

当算力不再是谜底时  ,真正需要被重新审阅的  ,着实是天生模子的“起点”。

在目今主流的两阶段天生框架中(分词器+天生模子)  ,业界已经在视觉分词器的预训练上投入了大宗算力与数据  ,但一个尴尬的事实是:

这些本钱  ,险些没有线性地转化为天生质量的提升

而MiniMax海螺视频团队  ,不止挑战了这一现实——用实验证实“Tokenizer的scaling能够提升模子性能”。

更要害的是  ,还带来了一款开箱即用、专为“下一代天生模子”打造的可扩展视觉分词器预训练框架——Visual Tokenizer Pre-training(以下简称VTP)。

只需换上这个视觉分词器  ,即可在不改变下游主模子(如DiT)任何训练设置的情形下  ,实现端到端天生性能的倍数级提升。

下面详细来看——

古板Tokenizer的缺陷:更好的重修≠更好的天生

要明确VTP保存的意义  ,首先我们需要回到更基础的问题上——

Tokenizer是什么?它又为何云云要害?

以AI生图为例  ,目今主流的生图模子险些清一色接纳了“两阶段”天生框架:

第一阶段(压缩):使用视觉Tokenizer(如VAE)这个组件  ,将原始图像压缩并映射到一个潜在空间(latent space)中;第二阶段(还原天生):再由以扩散模子为焦点的天生器(如DiT)  ,在这个潜在空间中学习漫衍  ,并逐步还原、天生最终图像。

用一张图来形容这个历程be like(先压缩后还原):

而Tokenizer  ,就是在第一阶段中认真压缩图片信息的组件。

若是没有这个组件  ,扩散模子就得直接在数百万像素组成的原始像素空间中举行“去噪”和天生——其盘算重漂后和内存开销将是天文数字。

因此  ,Tokenizer称得上是让模子能够在消耗级显卡上运行起来的“要害元勋”。

除此之外  ,Tokenize历程所得的低维潜在表征  ,其质量直接决议了最终天生图像的语义保真度、细节富厚度以及整体真实性  ,以是业界也普遍以为——

从某种水平上来说  ,Tokenize险些决议了后续天生模子的上限。

基于此  ,人们在研究怎样提升下游天生模子的质量时  ,也不约而同地将重点放在了“怎样精准复刻原始像素”上  ,即要求模子将压缩后的潜在特征(latent)尽可能精准地还原为原始图像。

而问题  ,也正出在这里。

古板Tokenizer在追求“像素级重修”时  ,往往会太过着迷于捕获图像的局部纹理、噪点等低层信息  ,从而忽视了天生使命真正依赖的高层语义与整体结构。

这就像学渣为了应付考试  ,只想着死记硬背种种试题  ,却完全不明确问题背后的知识点与逻辑结构。效果真正到了需要闻一知十、解决新问题的时间  ,一下就傻眼了。

在论文中  ,海螺视频团队将这一征象界说为“预逊放问题”(Pre-training Scaling Problem):

更好的像素级重修精度并不可带来更高质量的天生效果

如图所示  ,古板仅基于“重修”目的训练的Tokenizer(灰线)  ,随着算力投入增添  ,模子的天生性能不但没有提升  ,反而逐渐趋于饱和甚至略微下降。(ps:gFID权衡天生质量  ,越小越好)

由此  ,论文得出第一个要害发明:重修做得越好  ,天生反而可能越差;谎灾  ,古板VAE所依赖的纯重修训练范式  ,在面向天生使命时保存根天性局限。

那么  ,VTP是怎样破局的呢?

VTP破局之道:从像素级重修到强调“明确力”的主要性

事实上  ,VTP并非横空出生  ,而是海螺视频团队在恒久实践中重复试错与认知迭代的产品。

一些早期探索:从易学性到通用表征学习

在早期事情VA-VAE中  ,团队注重到:

有些“压缩后的特征”能让后续的扩散模子学得又快又好  ,而另一些则不可。

基于此  ,他们提出了“易学性”这一看法——即差别的潜在表征(latents)关于下游天生模子的学习难度截然差别  ,并期望通过优化latent的某些“友好特征”(如匀称性、频域漫衍等)来间接改善天生效果。

然而实践发明  ,这些要领虽有一定效果  ,却未触及实质。按团队自己的话来说就是:

实验将易学性等价为可准确盘算的简单指标(例如频域漫衍、匀称性、scale稳固性、低秩效应等等)有些过于理想了  ,这些指标可能和易学性有一定关联  ,但远不是所有。

就是说  ,当优化目的被限制在少数可丈量指标上时  ,模子往往只是学会了在特定指标上“刷分”  ,而没有从基础上学会明确图像的结构与语义(实质上仍未脱离“重修”领域)。

△在VA-VAE中  ,团队曾实验将易学性对应到latent漫衍的“匀称性”

而经由一连反思  ,团队逐渐意识到VA-VAE和厥后的许多实验  ,其深层目的并非仅仅是优化几个指标  ,而是在试图让latents具备某些更高级的“结构”。其背后逻辑在于:

若是某种latents关于图像中的实体、位置关系具有高度结构化的表达  ,那么这种结构化表达关于下游diffusion建模来说也会更精练、更容易  ,这些方面的天生效果也自然会更好。

这就好比另一种层面上的“大道至简”——当模子真正掌握了物体、关系与语义这些视觉天下的实质纪律时  ,它能应对的使命自然也就越多了(以稳固应万变)。

因此  ,与其为“易学性”设计懦弱的署理指标  ,不如直接让Tokenizer去学习人类视觉系统自己所依赖的那种高度结构化、语义化的通用表征。

事实像CLIP、DINOv2这样的现代通用表征学习要领  ,正是在大规模数据上自动化地学习了这种“人类对齐”的视觉表达  ,才在多种下游使命中体现出强盛的泛化能力。

至此  ,团队的研究重心正式从“像素级重修”转向了强调理解力的“通用表征学习”。

VTP:回归“压缩即智能”实质

基于这一认知转变  ,VTP的设计原则变得异常清晰。团队体现:

我们应该融合所有已知有用的表征学习要领来构建一个Tokenizer

详细而言  ,VTP这次率先实现了从只练“重修”到“明确、重修、天生”的联合优化。

一是通过图文比照学习  ,建设高层语义明确。

在训练时  ,团队会给模子看大宗图像-文本配对数据(如“一只猫在沙发上”与对应图片)  ,然后要求图片的特征向量和文字的特征向量尽可能靠近。

这和之前的CLIP思绪一脉相承  ,但目的更聚焦。CLIP追求的是广义的图文匹配能力  ,而VTP则要求Tokenizer在压缩图像为紧凑的潜在编码时  ,必需保存与文本对齐的语义结构。

这意味着  ,天生模子后续吸收到的每一个潜在体现  ,自己就已经是“有语义的”——它不但是一堆像素的压缩  ,而是携带了“猫”、“沙发”等看法及其关系的结构化表达。和以往相比  ,“语义注入”被提前到了压缩阶段。

二是通过自监视学习  ,掌握空间结构与视觉知识。

在VTP框架中  ,自监视学习?橥ü笛诼胪枷窠#∕IM) 和自蒸馏(DINO气概)  ,“迫使”模子去明确图片的空间关系和物体结构。

这个历程会“逼着”Tokenizer往返覆差别问题:

通过自蒸馏回覆:抛开详细的像素细节  ,这张图片最焦点的视觉主题或看法是什么?(全局语义)通过MIM回覆:凭证你看到的“冰山一角”  ,你能推断出整个“冰山”的形状和结构吗?(结构推理)二者协同回覆:为了识别图片主题或从局部重修整体  ,哪些视觉线索是决议性、不可缺失的?(聚焦焦点)

这一套流程走下来  ,模子对图像的明确便不再停留在像素层面  ,而是构建起了却构化的视觉认知。

三是通过重修  ,保存须要的底层视觉细节。

VTP依然保存了重修目的  ,但它的定位爆发了转变——其作用不再是“越准越好”  ,而是确保潜在空间中仍然保有天生所需的纹理、颜色与边沿等细节信息。

这三重目的并非伶仃举行  ,而是通过一个统一的多使命损失函数举行联合优化:

最终  ,VTP获得的不是一个在某个指标上“特殊优异”的压缩器  ,而是一个自带明确能力、对天生模子很是友好的视觉Tokenizer。

这里也增补一个细节:为什么他们不像许多事情一样直接使用现有的CLIP或DINOv2作为Tokenizer  ,而非要投入重大算力重新预训练一个?

其焦点思索在于两点(团队原话如下):

表征真的很主要  ,我们想要做到很极致。在我们的视角下表征包括了自监视、比照学习、甚至是重修(这些只是已知较量成熟的要领  ,现实上理想的表征远不止这些)  ,市面上没有一个能够很好地融汇这些要领的模子  ,我们需要自己训练一个;诒碚鞯腡okenizer计划具备scaling的潜力  ,预训练是最合理的实现方法。若是直接使用已有模子蒸馏或者迁徙  ,会由于setting过于重大而破损scaling的性子  ,也会受限于已有的模子规格而无法做充分的论证。

以是  ,选择“重新最先”的VTP  ,着实际体现事实怎样呢?

首次展示了Tokenizer的Scaling Law

归纳综合而言  ,团队通过VTP得出了两大概害发明:

明确力是驱动天生的要害因素视觉Tokenizer也具备明确的Scaling Law

先说第一点。

VTP用实验证实  ,若是只做重修的话  ,投入资源越多天生反而可能越差。

下图中  ,代表重修能力的rFID从2.0降至0.5  ,重修效果变好;但代表天生能力的gFID从55.04升至58.56  ,天生效果变差。

而一旦注入“明确力”(即引入CLIP图文比照/SSL自监视使命)  ,模子的天生质量(gFID)会随着明确能力(Linear Probe)的提升而同步变好——

二者泛起显着的正相关  ,且这种提升会随着训练盘算量增添一连推进。相比之下  ,缺少“明确力”的古板AE Only计划  ,其天生质量和明确能力很快陷入障碍。

更进一步  ,团队在一律算力下比照了差别组合  ,证实“CLIP+SSL+AE”的联合训练方法上限最高  ,天生与明确指标均最优。

基于此  ,团队训练的VTP在明确、重修、天生方面均交出了不错的答卷——

在ImageNet上的零样天职类准确率抵达78.2%  ,凌驾了原版CLIP的75.5%  ,已经具备强通用视觉明确能力;在重修能力上凌驾了Stable Diffusion的VAE  , rFID低至0.36;在天生能力上凌驾了此前的刷新要领VA-VAE  ,gFID低至2.81。

更要害的是  ,在抵达相同天生质量的条件下  ,VTP的训练收敛速率比LDM快5.7倍、比VA-VAE快4.1倍  ,大幅降低了训练本钱。

这一系列体现配合印证了团队的判断:Tokenizer的“语义明确力”而非纯粹的像素重修精度  ,才是驱动天生性能与效率提升的焦点动力。

再说第二点  ,也是更具突破性的一点。

团队在实验中发明  ,VTP首次展示了Tokenizer的Scaling Law  ,即天生性能可以随预训练中投入的盘算量、参数目和数据规模有用增添。

仅从算力维度比照  ,在不改动下游DiT标准训练设置的条件下  ,纯粹将Tokenizer的预训练盘算量放大  ,VTP就能为最终天生效果带来65.8%的性能提升  ,且提升曲线仍未触顶。

反观古板自编码器(AE)  ,其性能在仅投入约1/10盘算量时便已饱和  ,且继续增添算力不但收益微乎其微  ,甚至可能导致天生质量倒退。

以上发明批注  ,接下来除了在主模子上投入更多参数/算力/数据之外  ,还可以通过Tokenizer的scaling来提升整个天生系统的性能。

这个结论  ,乍一看可能会让人有点转不过弯:什么时间  ,Tokenizer也最先谈scaling了?

在大模子语境里  ,“Scaling Law”险些自然只属于主模子——参数更大、数据更多、算力更猛  ,性能就该继续往上走。至于Tokenizer  ,则恒久被视作一个“前置?椤  ,主打一个够用就行  ,做完重修使命就退场。

但VTP的泛起却改变了这一现实  ,团队体现:

VTP在latents易学性和通用表征学习之间建设起了明确关联  ,从而第一次将Tokenizer作为scaling的主角  ,展现出周全的scaling曲线和扩展偏向

就是说  ,若是Tokenizer只是被用来精准复刻像素  ,那么无论怎么堆算力  ,提升都将很快见顶;而一旦Tokenizer学到的是具备语义结构、对下游更友好的通用表征  ,事情就完全纷歧样了。

好比对整个行业来说  ,由于VTP在Tokenizer层面就已经统一了语义对齐、结构认知和细节表达  ,因此其产出的视觉表征自然具备多使命协同的潜力。

这有点像先把天下翻译成了一种统一、结构化的“视觉语言”。

一旦这套语言确定下来  ,下游无论是明确使命(如分类、检测)  ,照旧天生使命(如图像合成、编辑)  ,都不再需要各自“重新学怎么形貌这个天下”  ,而只是站在统一套底层表达之上  ,做差别的事情。

从这个角度看  ,VTP自然适适用来构建“明确-天生统一模子”。正如团队所言:

Tokenizer层面的统一  ,是更实质的统一

也因此  ,此次VTP的开源就不但单只是提供了一个组件那么简朴了。

其更大的价值或许在于  ,它为整个行业提供了一条新的、且被实验证执行之有用的路径——

在主模子之外  ,Tokenizer同样是一个值得恒久投入、且具备明确scaling回报的焦点环节。

现在  ,VTP的论文和模子权重已经果真  ,下手能力强的朋侪也可以实验体验下:

换一个视觉Tokenizer  ,模子性能就能变得纷歧样的feeling(手动狗头)。

【传送门】代码:https://github.com/MiniMax-AI/VTP论文:https://arxiv.org/abs/2512.13687v1模子:https://huggingface.co/collections/MiniMaxAI/vtp

??时势1:亚洲精品三级片在线观看

??12月29日,伊以紧张局势加剧 多国呼吁保持克制,

  村人决议将蛋送出去试试看  ,着实不可再另想步伐。

,卡戴珊视频门未删减21分钟在线观看。

??12月29日,(乡村行·看振兴)福建永定煤农吃上“生态饭”,

  许多人动容  ,由于只要破了石毅一项纪录  ,就注定要名动天下  ,所有人都听闻后  ,都难以清静了。

,9277免费高清在线观看 1080P,欧美性爱特级黄片,成人免费看片app下载。

??时势2:曰本一级AAAA片无码

??12月29日,村民发现四只“像猴又像鹰”的鸟!你认识它吗?,

  优异的学习习惯是由多种要素组成的有机统一体。因此  ,要改善自己的学习状态就必需沉下心来  ,脚扎实地  ,坚韧不拔的起劲下去。良勤学习习惯养成的时间  ,就是学习提高的时间。

,忍者三琳的脚丫照片,国产欧美成aⅴ人高清动漫,国产免费黄色网址视频。

??12月29日,北京市政府党组成员、副市长高朋接受中央纪委国家监委纪律审查和监察调查 ,

  这里我要强调的是  ,平时若是真是事情需要。按章程办理  ,各人在一起吃用饭  ,喝喝酒  ,无可非议。要害问题是我们中的一些人有时基础就没有来人  ,而是几小我私家在一起赌博  ,最后用饭款也由政府买单。这着实是太太过了  ,这种征象以后我们发明一起  ,查处一起  ,绝不手软I杏猩偈居龅骄凭屠淳  ,喝起来就不要命  ,酒桌上推杯换盏  ,称兄道弟  ,一喝就喝得不认得天南地北  ,假话连篇  ,什么话都说  ,什么事都做。把干部的形象都跌尽了。二是玩风太盛。现在我镇干步队伍中  ,玩风是较量厉害的  ,玩风主要体现在打扑克、搓麻将、垂纶等方面。特殊是赌博之风愈演愈烈  ,不但在家里赌、还拉到饭店茶楼赌  ,拉到食堂赌  ,有的甚至在办公室也赌。不来赌资不开桌  ,不来大赌不刺激  ,少则几十元  ,多则成千上万元。我早就说过  ,事情之余  ,同事之间打打牌、玩玩小麻将  ,搞一些小刺激是可以的。但我们的少数同志却不分场合  ,不分工具  ,在什么场合下都玩  ,跟什么人都玩。少数同志在公开场合之下与一些做生意人在一起也玩。玩出矛盾来还大吵大闹  ,这那里有党纪王法!那里像共产的样子  ,那里像国家干部的样子?

,欧美色播,强奸一级毛片在线,全部A片免费在线播放。

??时势3:美女被日软件免费下载观看

??12月29日,中国人保财险广西分公司原党委委员、副总经理孙建被查,

  小不点大眼光束惊人  ,如两团小火炬似的  ,体态如神鹤展翅  ,划出一道优美的轨迹  ,右臂一探  ,砰的一声捉住了那条晶莹的藕臂  ,此后猛力一带  ,将漂亮的女子扯了一个趔趄  ,身子低矮了下来。

,国内免费无遮挡毛片,91中文在线视频,国产无码视屏在线。

??12月29日,广州跻身GDP3万亿元俱乐部 2024年GDP增速预期不低于5%,

  盘坐天宫前的几位老者  ,自然身份极尊  ,皆法力高深  ,号称一方至强者  ,为几方时势力的领武士物。

,欧美精品日本,91禁止观看强奷在线看网站,国产精品视频第一区二区。

??时势4:春宵福利院导航

??12月29日,川渝跨区域跨流域生态环境执法经验做法获全国推广,

  新的学期又最先了  ,在我们每小我私家的眼前都摊开了一张新白纸  ,那么我们将怎样在这张白纸上画出人生的又一幅精彩的画卷呢?同砚们  ,选择了勤勉和斗争  ,也就选择了希望与收获;选择了纪律与约束  ,也就选择了理智与自由;选择了痛苦与艰难  ,也就选择了练达与成熟;选择了拼搏与逾越  ,也就选择了乐成与绚烂!那么就请用我们的勤劳和汗水  ,用我们的智慧和热情  ,捉住这名贵的今天  ,师生团结一心  ,起劲在现在  ,去创立优美的明天吧。

,国产手机自拍,操操操使劲操爽,超碰人人人。

??12月29日,浙江嘉兴促“元宇宙阅读体验”进乡镇,

  这个时间  ,他感受到了一股特别的气息  ,此地无任何生灵  ,甚至蝼蚁皆无  ,十方清静  ,没有一头凶兽敢靠近  ,且精气汹涌  ,霞光闪灼。

,国产在线观看的网站你懂得免费,印度多毛熟妇,王者荣耀黄片网站。

责编:黄修雄

审核:魏根全

责编:哈吉

相关推荐 换一换

Copyright (C) 2001-   dzwww.com. All Rights Reserved

新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证

山东省互联网传媒集团主理  联系电话:0531-85193202  违法不良信息举报电话:0531-85196540

鲁ICP备09023866号-1   鲁公网安备 37010202000111号  

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

网站地图