(4分钟深入讲解)欧美成人激情苹果版v0.47.34.88.23.8.29.02-2265安卓网

k1体育麻将胡了

搜索 猫眼影戏 融媒体矩阵
  • 山东手机报

  • 猫眼影戏

  • 公共网官方微信

  • 公共网官方微博

  • 抖音

  • 人民号

  • 天下党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

DeepSeek-OCR是「长文本明确」未来偏向吗?中科院新基准给出谜底

2026-01-11 11:37:00
泉源:

猫眼影戏

作者:

周原泽

手机审查

  猫眼影戏记者 普萨 报道Q8X2R7L1T4J5M9B6W3

新智元报道

编辑:LRST

【新智元导读】DeepSeek-OCR的视觉文本压缩(VTC)手艺通过将文本编码为视觉Token ,实现高达10倍的压缩率 ,大幅降低大模子处置惩罚长文本的本钱。可是 ,视觉语言模子能否明确压缩后的高密度信息?中科院自动化所等推出VTCBench基准测试 ,评估模子在视觉空间中的认知极限 ,包括信息检索、关联推理和恒久影象三大使命。

近期 ,DeepSeek-OCR依附其立异的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了手艺圈的高度关注 ,以少少的视觉Token实现高效的文本信息编码 ,为长文本处置惩罚开发了新路径。

这一突破性希望让大模子处置惩罚超长文档的本钱大幅降低 ,但也抛出了一个焦点问题:当长文本被高度压缩为2D图像后 ,视觉语言模子(VLM)真的能明确其中的内容吗?

为相识答这一疑问 ,来自中科院自动化所、中国科学院香港立异研究院等机构的研究团队推出了首个专门针对视觉-文本压缩范式的基准测试——VTCBench。

论文链接:https://arxiv.org/abs/2512.15649

VTCBench链接: https://github.com/Moenupa/VTCBench

VLMEvalKit链接:https://github.com/bjzhb666/VLMEvalKit

Huggingface链接: https://huggingface.co/datasets/MLLM-CL/VTCBench

图 1:视觉-文本压缩 (VTC) 流程演示及VTCBench

与古板大模子直接读取成千上万的纯文本Token差别 ,VTC范式(如DeepSeek-OCR)先将长文档渲染 (Rendering)为高密度的2D图像 ,再由视觉编码器转化为少量的视觉Token。

该手艺可实现2倍至10倍的Token压缩率 ,显著降低了长文本处置惩罚时的盘算与显存开销。

VTCBench现已在GitHub和Huggingface周全开源 ,其衍生版本VTCBench-Wild是一个统一的、全方位评估模子在重大现实场景下视觉文本压缩的鲁棒性 ,现已集成到VLMevalkit。

焦点使命

权衡「看得见」之后的「看得懂」

现在的VLM也许能精彩地完成OCR识别 ,但在处置惩罚 VTC 压缩后的高密度信息时 ,其长文本明确能力仍存疑。

VTCBench通过三大使命 ,系统性地评估模子在视觉空间中的认知极限:

1.VTC-Retrieval (信息检索):在视觉「大海」中寻找特定事实的「针」(Needle-in-a-Haystack) ,测试模子对空间漫衍信息的捕获能力。

2.VTC-Reasoning (关联推理):挑战模子在险些没有文本重叠的情形下 ,通过关联推理寻找事实 ,逾越纯粹的词汇检索。

3.VTC-Memory (恒久影象):模拟超长对话 ,评估模子在视觉压缩框架下 ,抵御时间与结构性信息衰减的能力。

别的 ,团队同步推出了VTCBench-Wild ,引入 99 种差别的渲染设置(涵盖多种字体、字号、行高及配景) ,全方位检测模子在重大现实场景下的鲁棒性。

揭秘视觉压缩背后的认知瓶颈

图 2:VTCBench针对模子在长图像中检索信息的热力争。横轴代表上下文长度 ,纵轴代表要害事实(Needle)在文档中的深度。展现了模子体现的「迷失」与突破。

测试效果泛起出显著的「U 型曲线」:与文本模子类似 ,视觉语言模子(VLM)能够精准捕获开头和最后的信息 ,但关于中心部分的事实 ,明确能力会随着文档变长而强烈衰退。这证实晰纵然在视觉空间 ,模子依然保存严重的「空间注重力私见」 ,是未来 VTC 架构优化的要害偏向。

行业洞察

视觉压缩是长文本的终局吗?

通过对GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5等10余种尖端模子的深度评测 ,可以发明:

虽然VTC极大提升了效率 ,但现有VLM在重大推理和影象使命上的体现仍普遍弱于纯文本LLM;

消融实验证实 ,信息密度是决议模子性能的要害因素 ,直接影响视觉编码器的识别精度;

Gemini-3-Pro在VTCBench-Wild上体现惊艳 ,其视觉明确能力已险些追平其纯文本基准 ,证实晰VTC是实现大规模长文本处置惩罚的极其可行的路径!

总结

若是说古板的长文本处置惩罚是「逐字阅读」 ,那么DeepSeek-OCR所引领的VTC范式就是「过目成诵」的摄影式影象。VTCBench的泛起 ,正是为了确保模子在拥有这种「超能力」的同时 ,依然能够读懂字里行间的微言大义。

参考资料:

https://arxiv.org/abs/2512.15649

秒追ASI

?点赞、转发、在看一键三连?

点亮星标 ,锁定新智元极速推送!

??时势1:欧美在线喷浆

??01月11日,菲律宾一海军直升机紧急迫降致5人受伤 桑莱岬机场暂停运营,

  最前方的几人身份极高 ,但却首当其冲 ,其中两人直接被震的翻飞了起来 ,另外几人倒退。

,77v7vcc的图片。谢谢。

??01月11日,强冷空气“到货”新疆 部分列车停运,

  “你……确信在对我语言?”他迟疑的问道。

?第一百一十六章 风暴积贮,人人摸人人操人碰人,91亚洲精品在看在线观看高清,妓女一级AA黄色视频。

??时势2:男自慰无套免费网站他趣

??01月11日,2024天门山跑酷大赛启幕 逾70名选手“云纵天梯”,

  石飞蛟通体光线越发的强盛了 ,宛若火焰一样平常跳动 ,全身璀璨 ,在其胸口处 ,兽吼如雷 ,震的山林都在颤抖 ,山石滚落。

,java无码在线观看,女人自慰喷潮A片免费观看www,美女刚刚换了内裤图片。

??01月11日,联播观察|总书记强调的这个字 贯穿主题教育全过程,

  ●四、以强烈的事业心和责任责任感识概略、顾阵势 ,做山东----有限公司重组整合的支持者、听从者和贡献者。要从我自身带动做起 ,并教育指导干部职工以山东--的刷新生长阵势为重 ,讲政治、讲纪律 ,讲阵势 ,听从效劳于山东--的事情阵势 ,自觉遵守山东----有限公司的各项划定和事情原则 ,爱岗敬业 ,勇于认真 ,率先垂范 ,起劲自动、认真落实、不折不扣地完成山东----有限公司的事情使命 ,为实现山东--的斗争目的作出应有的孝顺。

,欧美挠脚心tickling网站,欧美 XXXX96动漫,禁片免费。

??时势3:日本来激烈吮乳吃奶头

??01月11日,八旬乡贤志在丹青 一笔一画传承中国廊桥文化,

  “另外 ,你们以为完事了?向村外看一看。”一位族老叹道。

,关晓彤AI裸体 喷水动漫,3D无遮挡H肉动漫地址,超碰97超碰。

??01月11日,多方纷纷发声反对所谓“中国产能过剩”论调 背后的原因是什么?,

  “唔 ,雨族与武王府攀亲 ,应当有些事。”另一位王侯颔首。

,影音先锋AV每日最新资源,藤浦惠复出新作2025,现场免费观看无码三级黄片。

??时势4:黄色黄页网站免费在线观看

??01月11日,吉林市力推“吉菜”香飘海外,

  3、生疏人语言我不信 ,勇敢地说不。

,久久人人妻人人做人人爽,18禁茄子 下载,91精品福利在线播放。

??01月11日,最高法:“第二十条”已被唤醒,还要持续落到实处,

  “真的 ,我速率比你们快!”小不点一口咬定 ,此后还传了一些“秘法” ,憨憨的笑着 ,让他们一定要保密。

,真人 c 黄扒衣服做小电,午夜一级影院欧美,国产人人看人人摸。

【外交部副部长孙卫东拜会巴基斯坦总统阿尔维】

【春和景明日 “汉服热”再起】

责编:罗小明

审核:胡牧

责编:恩提姆巴

相关推荐 换一换

Copyright (C) 2001-   dzwww.com. All Rights Reserved

新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证

山东省互联网传媒集团主理  联系电话:0531-85193202  违法不良信息举报电话:0531-85196540

鲁ICP备09023866号-1   鲁公网安备 37010202000111号  

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

网站地图