(5分钟快速掌握)韩国无码理论苹果版v10.896.30.19.77.18-2265安卓网

k1体育麻将胡了

搜索 猫眼影戏 融媒体矩阵
  • 山东手机报

  • 猫眼影戏

  • 公共网官方微信

  • 公共网官方微博

  • 抖音

  • 人民号

  • 天下党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

DeepSeek-OCR是「长文本明确」未来偏向吗 ?中科院新基准给出谜底

2026-01-08 05:41:21
泉源:

猫眼影戏

作者:

王笑松

手机审查

  猫眼影戏记者 姜多昤 报道Q8X2R7L1T4J5M9B6W3

新智元报道

编辑:LRST

【新智元导读】DeepSeek-OCR的视觉文本压缩(VTC)手艺通过将文本编码为视觉Token ,实现高达10倍的压缩率 ,大幅降低大模子处置惩罚长文本的本钱。可是 ,视觉语言模子能否明确压缩后的高密度信息 ?中科院自动化所等推出VTCBench基准测试 ,评估模子在视觉空间中的认知极限 ,包括信息检索、关联推理和恒久影象三大使命。

近期 ,DeepSeek-OCR依附其立异的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了手艺圈的高度关注 ,以少少的视觉Token实现高效的文本信息编码 ,为长文本处置惩罚开发了新路径。

这一突破性希望让大模子处置惩罚超长文档的本钱大幅降低 ,但也抛出了一个焦点问题:当长文本被高度压缩为2D图像后 ,视觉语言模子(VLM)真的能明确其中的内容吗 ?

为相识答这一疑问 ,来自中科院自动化所、中国科学院香港立异研究院等机构的研究团队推出了首个专门针对视觉-文本压缩范式的基准测试——VTCBench。

论文链接:https://arxiv.org/abs/2512.15649

VTCBench链接: https://github.com/Moenupa/VTCBench

VLMEvalKit链接:https://github.com/bjzhb666/VLMEvalKit

Huggingface链接: https://huggingface.co/datasets/MLLM-CL/VTCBench

图 1:视觉-文本压缩 (VTC) 流程演示及VTCBench

与古板大模子直接读取成千上万的纯文本Token差别 ,VTC范式(如DeepSeek-OCR)先将长文档渲染 (Rendering)为高密度的2D图像 ,再由视觉编码器转化为少量的视觉Token。

该手艺可实现2倍至10倍的Token压缩率 ,显著降低了长文本处置惩罚时的盘算与显存开销。

VTCBench现已在GitHub和Huggingface周全开源 ,其衍生版本VTCBench-Wild是一个统一的、全方位评估模子在重大现实场景下视觉文本压缩的鲁棒性 ,现已集成到VLMevalkit。

焦点使命

权衡「看得见」之后的「看得懂」

现在的VLM也许能精彩地完成OCR识别 ,但在处置惩罚 VTC 压缩后的高密度信息时 ,其长文本明确能力仍存疑。

VTCBench通过三大使命 ,系统性地评估模子在视觉空间中的认知极限:

1.VTC-Retrieval (信息检索):在视觉「大海」中寻找特定事实的「针」(Needle-in-a-Haystack) ,测试模子对空间漫衍信息的捕获能力。

2.VTC-Reasoning (关联推理):挑战模子在险些没有文本重叠的情形下 ,通过关联推理寻找事实 ,逾越纯粹的词汇检索。

3.VTC-Memory (恒久影象):模拟超长对话 ,评估模子在视觉压缩框架下 ,抵御时间与结构性信息衰减的能力。

别的 ,团队同步推出了VTCBench-Wild ,引入 99 种差别的渲染设置(涵盖多种字体、字号、行高及配景) ,全方位检测模子在重大现实场景下的鲁棒性。

揭秘视觉压缩背后的认知瓶颈

图 2:VTCBench针对模子在长图像中检索信息的热力争。横轴代表上下文长度 ,纵轴代表要害事实(Needle)在文档中的深度。展现了模子体现的「迷失」与突破。

测试效果泛起出显著的「U 型曲线」:与文本模子类似 ,视觉语言模子(VLM)能够精准捕获开头和最后的信息 ,但关于中心部分的事实 ,明确能力会随着文档变长而强烈衰退。这证实晰纵然在视觉空间 ,模子依然保存严重的「空间注重力私见」 ,是未来 VTC 架构优化的要害偏向。

行业洞察

视觉压缩是长文本的终局吗 ?

通过对GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5等10余种尖端模子的深度评测 ,可以发明:

虽然VTC极大提升了效率 ,但现有VLM在重大推理和影象使命上的体现仍普遍弱于纯文本LLM  ;

消融实验证实 ,信息密度是决议模子性能的要害因素 ,直接影响视觉编码器的识别精度  ;

Gemini-3-Pro在VTCBench-Wild上体现惊艳 ,其视觉明确能力已险些追平其纯文本基准 ,证实晰VTC是实现大规模长文本处置惩罚的极其可行的路径!

总结

若是说古板的长文本处置惩罚是「逐字阅读」 ,那么DeepSeek-OCR所引领的VTC范式就是「过目成诵」的摄影式影象。VTCBench的泛起 ,正是为了确保模子在拥有这种「超能力」的同时 ,依然能够读懂字里行间的微言大义。

参考资料:

https://arxiv.org/abs/2512.15649

秒追ASI

?点赞、转发、在看一键三连?

点亮星标 ,锁定新智元极速推送!

??时势1:中文字幕在线2020

??01月08日,以色列对黎巴嫩贝鲁特南郊发动空袭,

高校校长新学期讲话 篇1

,欧美三页。

??01月08日,香港影视娱乐博览2024启动 黎明续任“影视娱乐大使”,

  石昊倒退 ,他自幼在山林中长大 ,虽然没有履历过实战 ,可是却明确许多 ,避其矛头 ,一跃就退后了数米远。

,Free 麻豆中国,午夜人成午夜高潮免费视频,一级黄色A片66666666wwwwwcn。

??时势2:在线AAA精品

??01月08日,抖音生活服务“五一”数据:上海、郑州、厦门消费居全国前三,

  第三个M是多样化。一中的三年相信各人知道 ,“多样化”既有“不吝千金买宝刀 ,貂裘换酒也堪豪”的壮志 ,也有“采菊东篱下 ,悠然见南山”的怡情 ,还会走出兼具壮志与怡情、能跳“刀尖上舞蹈”的舰载机航行员。今年的高考作文题也可以体现。一中语文教研组组长王兆芳先生 ,人称巨帅 ,自得地告诉我 ,我们的学生一定会写出恢弘、道出气焰、一展情怀。我想他的意思是 ,不但会有毛泽东在长沙一中念书时在作文中抒写“叹数千年来民智之不开、国几蹈于陷落之惨也”的忧国忧民之情怀  ;也会有周恩来在南开中学学习时在文章中展露“挽神州之陆沉 ,作中流之砥柱 ,欲执天下牛耳 ,保东亚清静 ,舍水师其谁归 ?舍水师其谁归哉”的高瞻远瞩之气焰。

,超碰97在线国产,网爆欧美精品,流萤被操。

??01月08日,央行明年继续推动降低企业和居民综合融资成本 最新解读→,

  “我们是幸运的 ,也是不幸的。”族长石云峰的眼中有悲也有沧桑 ,昔时的好兄弟都死了 ,只有他一小我私家活下来 ,他心中有着无尽的痛。

,亚洲一级视频网站入口,男生和女生靠逼的视频,乱淫视频。

??时势3:国际无黄片又舒服又爽刺激到内射

??01月08日,第四届网络空间内生安全学术大会举办在即,

  “这谁呀 ,吃饱了撑的没事干吧 ,怎么去毁虚神界的通道啊 ,太禽兽了!”

,草在线视频,毛片黄色片免费观看视频,操东北女人的逼。

??01月08日,山东完善“科技大市场”体系 激活现代产业发展“动力源”,

  (1)在放假的时间里 ,在家我们不宜过长时间看电视和玩电脑 ,要康健上网,适度上网。绝对不可进入网吧 ,不可加入带有赌博性子的活动。

,久久免费影院视频观看,欧美一级又粗又大又黑,国产美女自拍av。

??时势4:亚洲A∨无码一区二区三区

??01月08日,形成西部地区高质量发展新格局,

  来到巢上 ,马上感受到阵阵森然气息 ,且有血腥味。巢穴边沿呈暗红色 ,显然青鳞鹰常在巢穴的边沿进食 ,经由种种兽血的恒久浸染 ,这个地方煞气很浓。

,亚洲欧美一区二区影音先锋在线,99视频精品,2021韩国三级电影。

??01月08日,特超稠油热采新技术在渤海油田应用 日增产原油约200吨,

  三、办妥这次培训班的几点要求

,欧美国黑人又大又粗,天天干超级爽,欧美视频zryl.com。

责编:罗伟林

审核:孙涛

责编:夏甫海

相关推荐 换一换

Copyright (C) 2001-   dzwww.com. All Rights Reserved

新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证

山东省互联网传媒集团主理  联系电话:0531-85193202  违法不良信息举报电话:0531-85196540

鲁ICP备09023866号-1   鲁公网安备 37010202000111号  

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

网站地图