1313精品久久久,让你的娱乐方式焕然一新,体验全新的互动快感

首页 >新闻 >社会新闻

MiniMax海螺视频团队首次开源：Tokenizer也具备明确Scaling Law

2025-12-27 07:01:33

泉源：

猫眼影戏

作者：

路易斯维尔

手机审查

　　猫眼影戏记者陈攀霄报道Q8X2R7L1T4J5M9B6W3

MiniMax海螺视频团队不藏了！

首次开源就揭晓了一个困扰行业已久的问题的谜底——

为什么往第一阶段的视觉分词器里砸再多算力，也无法提升第二阶段的天生效果？

翻译成明确话就是，虽然图像/视频天生模子的参数越做越大、算力越堆越猛，但用户现实体验下来总有一种玄妙的感受——这些重大的投入与产出似乎不可正比，模子离完全真正可用总是差一段距离。

So why？问题，或许率就出在视觉分词器（Tokenizer）这个工具身上了。

当算力不再是谜底时，真正需要被重新审阅的，着实是天生模子的“起点”。

在目今主流的两阶段天生框架中（分词器+天生模子），业界已经在视觉分词器的预训练上投入了大宗算力与数据，但一个尴尬的事实是：

这些本钱，险些没有线性地转化为天生质量的提升

而MiniMax海螺视频团队，不止挑战了这一现实——用实验证实“Tokenizer的scaling能够提升模子性能”。

更要害的是，还带来了一款开箱即用、专为“下一代天生模子”打造的可扩展视觉分词器预训练框架——Visual Tokenizer Pre-training（以下简称VTP）。

只需换上这个视觉分词器，即可在不改变下游主模子（如DiT）任何训练设置的情形下，实现端到端天生性能的倍数级提升。

下面详细来看——

古板Tokenizer的缺陷：更好的重修≠更好的天生

要明确VTP保存的意义，首先我们需要回到更基础的问题上——

Tokenizer是什么？它又为何云云要害？

以AI生图为例，目今主流的生图模子险些清一色接纳了“两阶段”天生框架：

第一阶段（压缩）：使用视觉Tokenizer（如VAE）这个组件，将原始图像压缩并映射到一个潜在空间（latent space）中；第二阶段（还原天生）：再由以扩散模子为焦点的天生器（如DiT），在这个潜在空间中学习漫衍，并逐步还原、天生最终图像。

用一张图来形容这个历程be like（先压缩后还原）：

而Tokenizer，就是在第一阶段中认真压缩图片信息的组件。

若是没有这个组件，扩散模子就得直接在数百万像素组成的原始像素空间中举行“去噪”和天生——其盘算重漂后和内存开销将是天文数字。

因此，Tokenizer称得上是让模子能够在消耗级显卡上运行起来的“要害元勋”。

除此之外，Tokenize历程所得的低维潜在表征，其质量直接决议了最终天生图像的语义保真度、细节富厚度以及整体真实性，以是业界也普遍以为——

从某种水平上来说，Tokenize险些决议了后续天生模子的上限。

基于此，人们在研究怎样提升下游天生模子的质量时，也不约而同地将重点放在了“怎样精准复刻原始像素”上，即要求模子将压缩后的潜在特征（latent）尽可能精准地还原为原始图像。

而问题，也正出在这里。

古板Tokenizer在追求“像素级重修”时，往往会太过着迷于捕获图像的局部纹理、噪点等低层信息，从而忽视了天生使命真正依赖的高层语义与整体结构。

这就像学渣为了应付考试，只想着死记硬背种种试题，却完全不明确问题背后的知识点与逻辑结构。效果真正到了需要闻一知十、解决新问题的时间，一下就傻眼了。

在论文中，海螺视频团队将这一征象界说为“预逊放问题”（Pre-training Scaling Problem）：

更好的像素级重修精度并不可带来更高质量的天生效果

如图所示，古板仅基于“重修”目的训练的Tokenizer（灰线），随着算力投入增添，模子的天生性能不但没有提升，反而逐渐趋于饱和甚至略微下降。（ps：gFID权衡天生质量，越小越好）

由此，论文得出第一个要害发明：重修做得越好，天生反而可能越差�；谎灾�，古板VAE所依赖的纯重修训练范式，在面向天生使命时保存根天性局限。

那么，VTP是怎样破局的呢？

VTP破局之道：从像素级重修到强调“明确力”的主要性

事实上，VTP并非横空出生，而是海螺视频团队在恒久实践中重复试错与认知迭代的产品。

一些早期探索：从易学性到通用表征学习

在早期事情VA-VAE中，团队注重到：

有些“压缩后的特征”能让后续的扩散模子学得又快又好，而另一些则不可。

基于此，他们提出了“易学性”这一看法——即差别的潜在表征（latents）关于下游天生模子的学习难度截然差别，并期望通过优化latent的某些“友好特征”（如匀称性、频域漫衍等）来间接改善天生效果。

然而实践发明，这些要领虽有一定效果，却未触及实质。按团队自己的话来说就是：

实验将易学性等价为可准确盘算的简单指标（例如频域漫衍、匀称性、scale稳固性、低秩效应等等）有些过于理想了，这些指标可能和易学性有一定关联，但远不是所有。

就是说，当优化目的被限制在少数可丈量指标上时，模子往往只是学会了在特定指标上“刷分”，而没有从基础上学会明确图像的结构与语义（实质上仍未脱离“重修”领域）。

△在VA-VAE中，团队曾实验将易学性对应到latent漫衍的“匀称性”

而经由一连反思，团队逐渐意识到VA-VAE和厥后的许多实验，其深层目的并非仅仅是优化几个指标，而是在试图让latents具备某些更高级的“结构”。其背后逻辑在于：

若是某种latents关于图像中的实体、位置关系具有高度结构化的表达，那么这种结构化表达关于下游diffusion建模来说也会更精练、更容易，这些方面的天生效果也自然会更好。

这就好比另一种层面上的“大道至简”——当模子真正掌握了物体、关系与语义这些视觉天下的实质纪律时，它能应对的使命自然也就越多了（以稳固应万变）。

因此，与其为“易学性”设计懦弱的署理指标，不如直接让Tokenizer去学习人类视觉系统自己所依赖的那种高度结构化、语义化的通用表征。

事实像CLIP、DINOv2这样的现代通用表征学习要领，正是在大规模数据上自动化地学习了这种“人类对齐”的视觉表达，才在多种下游使命中体现出强盛的泛化能力。

至此，团队的研究重心正式从“像素级重修”转向了强调理解力的“通用表征学习”。

VTP：回归“压缩即智能”实质

基于这一认知转变，VTP的设计原则变得异常清晰。团队体现：

我们应该融合所有已知有用的表征学习要领来构建一个Tokenizer

详细而言，VTP这次率先实现了从只练“重修”到“明确、重修、天生”的联合优化。

一是通过图文比照学习，建设高层语义明确。

在训练时，团队会给模子看大宗图像-文本配对数据（如“一只猫在沙发上”与对应图片），然后要求图片的特征向量和文字的特征向量尽可能靠近。

这和之前的CLIP思绪一脉相承，但目的更聚焦。CLIP追求的是广义的图文匹配能力，而VTP则要求Tokenizer在压缩图像为紧凑的潜在编码时，必需保存与文本对齐的语义结构。

这意味着，天生模子后续吸收到的每一个潜在体现，自己就已经是“有语义的”——它不但是一堆像素的压缩，而是携带了“猫”、“沙发”等看法及其关系的结构化表达。和以往相比，“语义注入”被提前到了压缩阶段。

二是通过自监视学习，掌握空间结构与视觉知识。

在VTP框架中，自监视学习�？橥ü笛诼胪枷窠＃∕IM）和自蒸馏（DINO气概），“迫使”模子去明确图片的空间关系和物体结构。

这个历程会“逼着”Tokenizer往返覆差别问题：

通过自蒸馏回覆：抛开详细的像素细节，这张图片最焦点的视觉主题或看法是什么？（全局语义）通过MIM回覆：凭证你看到的“冰山一角”，你能推断出整个“冰山”的形状和结构吗？（结构推理）二者协同回覆：为了识别图片主题或从局部重修整体，哪些视觉线索是决议性、不可缺失的？（聚焦焦点）

这一套流程走下来，模子对图像的明确便不再停留在像素层面，而是构建起了却构化的视觉认知。

三是通过重修，保存须要的底层视觉细节。

VTP依然保存了重修目的，但它的定位爆发了转变——其作用不再是“越准越好”，而是确保潜在空间中仍然保有天生所需的纹理、颜色与边沿等细节信息。

这三重目的并非伶仃举行，而是通过一个统一的多使命损失函数举行联合优化：

最终，VTP获得的不是一个在某个指标上“特殊优异”的压缩器，而是一个自带明确能力、对天生模子很是友好的视觉Tokenizer。

这里也增补一个细节：为什么他们不像许多事情一样直接使用现有的CLIP或DINOv2作为Tokenizer，而非要投入重大算力重新预训练一个？

其焦点思索在于两点（团队原话如下）：

表征真的很主要，我们想要做到很极致。在我们的视角下表征包括了自监视、比照学习、甚至是重修（这些只是已知较量成熟的要领，现实上理想的表征远不止这些），市面上没有一个能够很好地融汇这些要领的模子，我们需要自己训练一个�；诒碚鞯腡okenizer计划具备scaling的潜力，预训练是最合理的实现方法。若是直接使用已有模子蒸馏或者迁徙，会由于setting过于重大而破损scaling的性子，也会受限于已有的模子规格而无法做充分的论证。

以是，选择“重新最先”的VTP，着实际体现事实怎样呢？

首次展示了Tokenizer的Scaling Law

归纳综合而言，团队通过VTP得出了两大概害发明：

明确力是驱动天生的要害因素视觉Tokenizer也具备明确的Scaling Law

先说第一点。

VTP用实验证实，若是只做重修的话，投入资源越多天生反而可能越差。

下图中，代表重修能力的rFID从2.0降至0.5，重修效果变好；但代表天生能力的gFID从55.04升至58.56，天生效果变差。

而一旦注入“明确力”（即引入CLIP图文比照/SSL自监视使命），模子的天生质量（gFID）会随着明确能力（Linear Probe）的提升而同步变好——

二者泛起显着的正相关，且这种提升会随着训练盘算量增添一连推进。相比之下，缺少“明确力”的古板AE Only计划，其天生质量和明确能力很快陷入障碍。

更进一步，团队在一律算力下比照了差别组合，证实“CLIP+SSL+AE”的联合训练方法上限最高，天生与明确指标均最优。

基于此，团队训练的VTP在明确、重修、天生方面均交出了不错的答卷——

在ImageNet上的零样天职类准确率抵达78.2%，凌驾了原版CLIP的75.5%，已经具备强通用视觉明确能力；在重修能力上凌驾了Stable Diffusion的VAE， rFID低至0.36；在天生能力上凌驾了此前的刷新要领VA-VAE，gFID低至2.81。

更要害的是，在抵达相同天生质量的条件下，VTP的训练收敛速率比LDM快5.7倍、比VA-VAE快4.1倍，大幅降低了训练本钱。

这一系列体现配合印证了团队的判断：Tokenizer的“语义明确力”而非纯粹的像素重修精度，才是驱动天生性能与效率提升的焦点动力。

再说第二点，也是更具突破性的一点。

团队在实验中发明，VTP首次展示了Tokenizer的Scaling Law，即天生性能可以随预训练中投入的盘算量、参数目和数据规模有用增添。

仅从算力维度比照，在不改动下游DiT标准训练设置的条件下，纯粹将Tokenizer的预训练盘算量放大，VTP就能为最终天生效果带来65.8%的性能提升，且提升曲线仍未触顶。

反观古板自编码器（AE），其性能在仅投入约1/10盘算量时便已饱和，且继续增添算力不但收益微乎其微，甚至可能导致天生质量倒退。

以上发明批注，接下来除了在主模子上投入更多参数/算力/数据之外，还可以通过Tokenizer的scaling来提升整个天生系统的性能。

这个结论，乍一看可能会让人有点转不过弯：什么时间，Tokenizer也最先谈scaling了？

在大模子语境里，“Scaling Law”险些自然只属于主模子——参数更大、数据更多、算力更猛，性能就该继续往上走。至于Tokenizer，则恒久被视作一个“前置�？椤�，主打一个够用就行，做完重修使命就退场。

但VTP的泛起却改变了这一现实，团队体现：

VTP在latents易学性和通用表征学习之间建设起了明确关联，从而第一次将Tokenizer作为scaling的主角，展现出周全的scaling曲线和扩展偏向

就是说，若是Tokenizer只是被用来精准复刻像素，那么无论怎么堆算力，提升都将很快见顶；而一旦Tokenizer学到的是具备语义结构、对下游更友好的通用表征，事情就完全纷歧样了。

好比对整个行业来说，由于VTP在Tokenizer层面就已经统一了语义对齐、结构认知和细节表达，因此其产出的视觉表征自然具备多使命协同的潜力。

这有点像先把天下翻译成了一种统一、结构化的“视觉语言”。

一旦这套语言确定下来，下游无论是明确使命（如分类、检测），照旧天生使命（如图像合成、编辑），都不再需要各自“重新学怎么形貌这个天下”，而只是站在统一套底层表达之上，做差别的事情。

从这个角度看，VTP自然适适用来构建“明确-天生统一模子”。正如团队所言：

Tokenizer层面的统一，是更实质的统一

也因此，此次VTP的开源就不但单只是提供了一个组件那么简朴了。

其更大的价值或许在于，它为整个行业提供了一条新的、且被实验证执行之有用的路径——

在主模子之外，Tokenizer同样是一个值得恒久投入、且具备明确scaling回报的焦点环节。

现在，VTP的论文和模子权重已经果真，下手能力强的朋侪也可以实验体验下：

换一个视觉Tokenizer，模子性能就能变得纷歧样的feeling（手动狗头）。

【传送门】代码：https://github.com/MiniMax-AI/VTP论文：https://arxiv.org/abs/2512.13687v1模子：https://huggingface.co/collections/MiniMaxAI/vtp

??时势1：可以看岁孩h的网站

??12月27日,“2024海峡两岸青年活力嘉年华”上海开幕,

　　“噗”

,污黄色片99精品人人操人人插。

??12月27日,网店商家虚假发货到底为了啥？,

　　第三，要认清我市城镇化建设面临的机缘和优势。随着我国人均国民生产总值抵达美元，城镇化建设进入了一个快速生长的新阶段。这对我市来说，是城镇化建设实现跨越式生长、缩短与蓬勃地区差别的大好时机，有许多有利条件，是个千载一时的机缘，必需牢牢捉住五个方面的新机缘：一是牢牢捉住政策推进的新机缘。城镇化作为国家“”妄想的主要战略，国家将在以后五年逐步建设健全与城镇化康健生长响应的各项制度，消除制约我国城镇化的体制性障碍。将加大城镇基础设施投入，特殊是城镇户口进一步铺开，将为城镇经济生长和农村生齿转移提供有力包管。随着国家增进中部崛起和省实验中原崛起战略的深入推进，将会出台一系列加速中部地区生长的政策步伐，包括加大资金投入，这将极大地改善中部地区的生长条件和情形，增进城镇化生长。在“”时代，省委、省政府明确提出把信阳生长成为区域中心都会，把潢川、固始生长成为具有较强辐射能力的中等都会，这对我市城镇化建设是一个有力推动。二是牢牢捉住工业转移的新机缘。从国际情形看，经济全球化深入生长，国际间生产要素重组以及蓬勃国家资源和工业加速向生长中国家转移，为我市“走出去”提供了更大的生长空间。从海内情形看，沿海蓬勃地区资源和工业加速向内陆地区转移，在承接这种转移中，我市是一个不可逾越的必经之地，具有得天独厚的区位优势，使我们能够赢得生长先机。三是要牢牢捉住实力增强的新机缘。即将已往的五年，是我市经济社会快速生长取得很大成绩的五年，全市国民生产总淘淘版权所有值年均增添。今年前三个季度，全市生产总值抵达亿元，地方财务一样平常预算收入抵达亿元，全社会消耗品零售总额亿元，城镇住民人均可支配收入元，城镇规模以上工业企业增添值抵达亿元，城镇经济实力大大增强。农村二、三工业正由量的扩张向质的提高和规模的扩大转变，吸纳劳动力的能力将一直增强，涤讪了我市城镇化的物质基础。凭证国际上城镇化的一样平常纪律，当一个国家或地区的城镇化率凌驾，城镇化将进入加速生长阶段。随着我市今年生产总值有望突破亿大关，城镇化率将抵达左右，这标记着我市城镇化也将进入新的生长阶段。四是要牢牢捉住劳务催化的新机缘。今年至月份，全市外出务工职员抵达万人，其中出国务工职员人，劳务总收入达亿元，农民返乡开办种种经济实体个，发动就业人�？梢运�，劳务经济是我市县域经济的主要支持。各县区的现有企业，很大一部分是外出务工职员回乡开办的。县的工业企业有是打工农民建起来的。劳务经济的蓬勃生长，为推进城镇化历程起到了催化作用，并且正在施展着越来越主要的作用。我市是劳动力资源大市，农村劳动转移有很大的潜力和空间，是一个很大的潜在市场，这将是我市不可多得的资源财产，这也将为我市城镇化生长提供强盛的人力资源。五是要牢牢捉住情形改善的新机缘。经由多年的刷新开放，特殊是近几年的加速生长，使我市的软硬情形获得优化，都会形象大大改观，都会品味有了提升，着名度逐步提高。我市是天下主要的交通枢纽都会，形成了区域性快速交通网络，这样的优势在全省以致天下都是少有的，这是我市加速城镇化生长的一个很主要的条件。另外，加速城镇化历程也是全市人民的配合愿望和普遍心声，上下形成了共识，这为我们加速城镇化生长涤讪了坚实的头脑基础和群众基础，使城镇化建设有了包管。面临机缘，我们一定要倍加珍惜，准确掌握城镇化生长的总体趋势，把机缘优势尽快转化为生长实力。未来年，既是城镇化生长的要害时期，又是推进城镇化建设的最佳机缘期。各级党委和政府要以强烈的责任感和只争朝夕的精神，掌握机缘，加速推进，周全提升城镇化水平。

,刘涛性做爰A片免费看,思思久久99,夜色综合。

??时势2：久久艹视频99

??12月27日,收录近500幅优秀作品《你好，插画》新书在广州首发,

　　～年，我们的总体目的是：继续周全实验以市场为导向的周全产品、手艺、效劳领先战略，继续坚韧不拔的走专业化工业生长蹊径，坚持公司康健、稳固、一连生长。使公司成为中国电子式电能表、自动抄表和电力负荷治理辖档挽域最具竞争力的企业。准确掌握政策导向和市场趋势，快速知足市场对产品的需求，扩大市场份额和市场规模，确保实现销售收入亿，力争亿。

,AA片免费看,欧美大黑帍在线播放,91性爱网址。

??12月27日,高职如何应对人工智能挑战,

　　在此时代，少妇对小石昊极好，当成了亲生的一样平常，最后爽性将他带到自己的住处，连同石毅一起照料。

,日韩欧美亚洲精品,日日碰狠狠添天天爽超碰97,YOURPOUR永不迷路尤尔邦。

??时势3：亚洲综合一区在线

??12月27日,“2024海峡两岸青年活力嘉年华”上海开幕逾两千名台青参加,　　携程集团副总裁秦静以为，随着这一政策的施行，将加速中国与澳大利亚之间的旅游交流及经贸互动。同时，政策也将惠及在澳大利亚生涯的逾百万华人华侨，使得他们回国探亲或旅游的历程更为轻盈顺畅。秦静指出，作为亚太地区的主要国家，中国与澳大利亚在经济上具有高度的互补性，相助潜力重大，未来也期盼在旅游领域引发更强劲的相助动力。,国产精品一区二区久久人人爽,XXXXL19622222和XX型号对比,三级黄色网址。

??12月27日,喀什论道| 澳大利亚联邦人文科学院院士马克林：新疆正在经历另一个伟大的繁荣时刻,

　　关于每小我私家来说，生命都只有一次。而在现实生涯中，并非人人都具有较高的清静意识。据相识，我国每年约有1.6万名中小学生非正常殒命：平均天天有40多人，就是说险些天天有一个班的学生在消逝。其中溺水是造成中小学生意外殒命的第一杀手。有关专家以为通过教育和预防，80%的中小学生意外危险事故是可以阻止的。上周已经向每一位同砚发放了教育部的致天下中小学生家长的一封信，请同砚们与家长认真学习。在今天这个特殊的日子里，凭证上级通知精神及我校现真相形，特向同砚们提出以下几点要求：

,日本AAAA又大又粗,黄片wwwwww.免费,猛插淫gay片gy2022。

??时势4：最近的中文字幕免费

??12月27日,南京调整2024年度住房公积金缴存基数,

　　小不点像是挥舞稻草人般，将他抡起来，再次砸向地面，简朴而暴力。

,国产高清黄色视频,日韩欧美大码a在线观看,日夜夜人人操人人操。

??12月27日,俄“雅库特”号核动力破冰船进行海试,

　　二、进一步强化作风建设

,XX❌❌BBB000X❌,国语对白刺激真实精品,夜夜爽人人爽。

【青海省海东市政府原党组成员魏成玉被“双开”】

【前10个月我国机械工业增加值同比增长5.5%】

责编：庚戍

审核：赫塞

责编：张晶

k1体育麻将胡了

MiniMax海螺视频团队首次开源：Tokenizer也具备明确Scaling Law