(7秒带你发现更多)日本妈妈巨乳安卓版v30.25.10.02.01.81.182.03-2265安卓网

k1体育麻将胡了

搜索 猫眼影戏 融媒体矩阵
  • 山东手机报

  • 猫眼影戏

  • 公共网官方微信

  • 公共网官方微博

  • 抖音

  • 人民号

  • 天下党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

DeepSeek-OCR是「长文本明确」未来偏向吗?中科院新基准给出谜底

2026-01-10 21:40:16
泉源:

猫眼影戏

作者:

马欣

手机审查

  猫眼影戏记者 魏琼开 报道Q8X2R7L1T4J5M9B6W3

新智元报道

编辑:LRST

【新智元导读】DeepSeek-OCR的视觉文本压缩(VTC)手艺通过将文本编码为视觉Token,实现高达10倍的压缩率,大幅降低大模子处置惩罚长文本的本钱。可是,视觉语言模子能否明确压缩后的高密度信息?中科院自动化所等推出VTCBench基准测试,评估模子在视觉空间中的认知极限,包括信息检索、关联推理和恒久影象三大使命。

近期,DeepSeek-OCR依附其立异的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了手艺圈的高度关注,以少少的视觉Token实现高效的文本信息编码,为长文本处置惩罚开发了新路径。

这一突破性希望让大模子处置惩罚超长文档的本钱大幅降低,但也抛出了一个焦点问题:当长文本被高度压缩为2D图像后,视觉语言模子(VLM)真的能明确其中的内容吗?

为相识答这一疑问,来自中科院自动化所、中国科学院香港立异研究院等机构的研究团队推出了首个专门针对视觉-文本压缩范式的基准测试——VTCBench。

论文链接:https://arxiv.org/abs/2512.15649

VTCBench链接: https://github.com/Moenupa/VTCBench

VLMEvalKit链接:https://github.com/bjzhb666/VLMEvalKit

Huggingface链接: https://huggingface.co/datasets/MLLM-CL/VTCBench

图 1:视觉-文本压缩 (VTC) 流程演示及VTCBench

与古板大模子直接读取成千上万的纯文本Token差别,VTC范式(如DeepSeek-OCR)先将长文档渲染 (Rendering)为高密度的2D图像,再由视觉编码器转化为少量的视觉Token。

该手艺可实现2倍至10倍的Token压缩率,显著降低了长文本处置惩罚时的盘算与显存开销。

VTCBench现已在GitHub和Huggingface周全开源,其衍生版本VTCBench-Wild是一个统一的、全方位评估模子在重大现实场景下视觉文本压缩的鲁棒性,现已集成到VLMevalkit。

焦点使命

权衡「看得见」之后的「看得懂」

现在的VLM也许能精彩地完成OCR识别,但在处置惩罚 VTC 压缩后的高密度信息时,其长文本明确能力仍存疑。

VTCBench通过三大使命,系统性地评估模子在视觉空间中的认知极限:

1.VTC-Retrieval (信息检索):在视觉「大海」中寻找特定事实的「针」(Needle-in-a-Haystack),测试模子对空间漫衍信息的捕获能力。

2.VTC-Reasoning (关联推理):挑战模子在险些没有文本重叠的情形下,通过关联推理寻找事实,逾越纯粹的词汇检索。

3.VTC-Memory (恒久影象):模拟超长对话,评估模子在视觉压缩框架下,抵御时间与结构性信息衰减的能力。

别的,团队同步推出了VTCBench-Wild,引入 99 种差别的渲染设置(涵盖多种字体、字号、行高及配景),全方位检测模子在重大现实场景下的鲁棒性。

揭秘视觉压缩背后的认知瓶颈

图 2:VTCBench针对模子在长图像中检索信息的热力争。横轴代表上下文长度,纵轴代表要害事实(Needle)在文档中的深度。展现了模子体现的「迷失」与突破。

测试效果泛起出显著的「U 型曲线」:与文本模子类似,视觉语言模子(VLM)能够精准捕获开头和最后的信息,但关于中心部分的事实,明确能力会随着文档变长而强烈衰退。这证实晰纵然在视觉空间,模子依然保存严重的「空间注重力私见」,是未来 VTC 架构优化的要害偏向。

行业洞察

视觉压缩是长文本的终局吗?

通过对GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5等10余种尖端模子的深度评测,可以发明:

虽然VTC极大提升了效率,但现有VLM在重大推理和影象使命上的体现仍普遍弱于纯文本LLM ;

消融实验证实,信息密度是决议模子性能的要害因素,直接影响视觉编码器的识别精度 ;

Gemini-3-Pro在VTCBench-Wild上体现惊艳,其视觉明确能力已险些追平其纯文本基准,证实晰VTC是实现大规模长文本处置惩罚的极其可行的路径!

总结

若是说古板的长文本处置惩罚是「逐字阅读」,那么DeepSeek-OCR所引领的VTC范式就是「过目成诵」的摄影式影象。VTCBench的泛起,正是为了确保模子在拥有这种「超能力」的同时,依然能够读懂字里行间的微言大义。

参考资料:

https://arxiv.org/abs/2512.15649

秒追ASI

?点赞、转发、在看一键三连?

点亮星标,锁定新智元极速推送!

??时势1:黄色一区二区

??01月10日,回声|“总书记,我们企业正以研发创新跑出‘加速度’”,

  “不管谁做的,都会引动来滔天大祸,石国最少会派来几个王侯,一起追查究竟,你一经的一些小行动,自然瞒不住,而我等也会被牵连进来……”雨蒙暴怒,额头青筋暴跳,心中有一种大恐惧。

?第七十一章 玉人,精品二三区日本。

??01月10日,聚焦农机社会化服务 业者探讨社会力量如何助力,

  雷族的人神色难看到了极点,堂堂一族之主,下令四方,掌控无垠大地,居然被俘。

,黄视频福利,淫荡的少妇亚洲色图,Npxvip。

??时势2:天堂网精品无码A√在线

??01月10日,北京三年筹集彩票公益金超50亿元 支持养老助残体育等公益项目,

  小孤山镇一片嘈杂,外来者快遇上原住民的人数了,而金狼部落、雷族等则有大批能手进驻,静等下令。

,99久久久无码国产精片,幼女hentai,的意思打牌不盖被子网站免费完整。

??01月10日,香港海关1月截获97宗怀疑携带濒危物种入境个案,

  “当!”

,欧美深夜性爱,视色 视色影院 视色影秀 视色网,男同操。

??时势3:欧美黄色视频电影

??01月10日,冬天水果也丰收、竹林空气变成钱……智慧管理带来乡村新发现,

  “追来了!”小不颔首皮发麻,这是一头远古遗种,太强盛了,绝非现在的他们所能对抗的。

,免费乱人伦XX,欧美自拍偷拍首页,渔女做爱。

??01月10日,加拿大新斯科舍省中华会馆庆祝创会70周年,

网站董事长致辞 篇22

,老阿姨不戴套和我泄欲,在线国产精品播放,a级毛片在线观看。

??时势4:9.1.gb.crm

??01月10日,西北地区首座储气库群今冬开启采气,

  此语一出,争吵声马上变少了,许多人都不再语言,这是一个事实,小不点能否活下来都还两说呢。

,视频一区国产在线中文,看老女人操逼视频,18岁免费观看黄色网站。

??01月10日,聚焦服务精准化 陕西多部门联动为民营企业“聚才引智”,

  第二、作风问题解决欠好,损害党和政府的形象,影响经济生长,贻误小我私家生长。作风问题无小事。重视作风建设,是我们党的优良古板。党和政府在群众心目中的形象,很洪流平上是通过各级干部的作风体现出来的。干部作风歪了、形象坏了,群众就与你远了,你语言就没有招呼力,没人听,政府出台的步伐就无法在群众中获得贯彻落实,搞建设、效劳业就得不到强有力的支持。在招商引资事情中也是这样。招商引资需要一个好的投资情形。好的情形靠什么来营造?靠完善的制度,靠优质的效劳,归根结底靠宽大干部好的作风。干部作风不实,就会成事缺乏,败事有余,给投资客商造成卑劣影响,给我们园区经济建设带来重大损失。

,在线观看精品视频你懂的,山姬之实,欧美做受 出浆。

责编:李介德

审核:李鑫宇

责编:高懿

相关推荐 换一换

Copyright (C) 2001-   dzwww.com. All Rights Reserved

新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证

山东省互联网传媒集团主理  联系电话:0531-85193202  违法不良信息举报电话:0531-85196540

鲁ICP备09023866号-1   鲁公网安备 37010202000111号  

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

网站地图