爽⋯躁多水⋯快⋯进不去了视频

电脑版下载

25138
1

爽⋯躁多水⋯快⋯进不去了视频截图Q8X2R7L1T4J5M9B6W3

内容详情

爽⋯躁多水⋯快⋯进不去了视频

新智元报道

编辑：LRST

【新智元导读】DeepSeek-OCR的视觉文本压缩（VTC）手艺通过将文本编码为视觉Token，实现高达10倍的压缩率，大幅降低大模子处置惩罚长文本的本钱。可是，视觉语言模子能否明确压缩后的高密度信息？中科院自动化所等推出VTCBench基准测试，评估模子在视觉空间中的认知极限，包括信息检索、关联推理和恒久影象三大使命。

近期，DeepSeek-OCR依附其立异的「视觉文本压缩」（Vision-Text Compression, VTC）范式引发了手艺圈的高度关注，以少少的视觉Token实现高效的文本信息编码，为长文本处置惩罚开发了新路径。

这一突破性希望让大模子处置惩罚超长文档的本钱大幅降低，但也抛出了一个焦点问题：当长文本被高度压缩为2D图像后，视觉语言模子（VLM）真的能明确其中的内容吗？

为相识答这一疑问，来自中科院自动化所、中国科学院香港立异研究院等机构的研究团队推出了首个专门针对视觉-文本压缩范式的基准测试——VTCBench。

论文链接：https://arxiv.org/abs/2512.15649

VTCBench链接: https://github.com/Moenupa/VTCBench

VLMEvalKit链接：https://github.com/bjzhb666/VLMEvalKit

Huggingface链接: https://huggingface.co/datasets/MLLM-CL/VTCBench

图 1：视觉-文本压缩 (VTC) 流程演示及VTCBench

与古板大模子直接读取成千上万的纯文本Token差别，VTC范式（如DeepSeek-OCR）先将长文档渲染（Rendering）为高密度的2D图像，再由视觉编码器转化为少量的视觉Token。

该手艺可实现2倍至10倍的Token压缩率，显著降低了长文本处置惩罚时的盘算与显存开销。

VTCBench现已在GitHub和Huggingface周全开源，其衍生版本VTCBench-Wild是一个统一的、全方位评估模子在重大现实场景下视觉文本压缩的鲁棒性，现已集成到VLMevalkit。

焦点使命