猫眼影戏
猫眼影戏
周行涛
手机审查
猫眼影戏记者 赵英杰 报道Q8X2R7L1T4J5M9B6W3
henry 发自 凹非寺量子位 | 公众号 QbitAI
刚刚,DeepSeek开源了全新的OCR模子——
DeepSeek-OCR 2,主打将PDF文档精准转换Markdown。
相较于去年10月20日宣布的初代模子,DeepSeek-OCR 2的焦点突破在于突破了古板模子死板的“光栅扫描”逻辑,实现了凭证图像语义动态重排视觉标记(Visual Tokens)
为此,DeepSeek-OCR 2弃用了前作中的CLIP组件,转而使用轻量化的语言模子(Qwen2-0.5B)构建DeepEncoder V2,在视觉编码阶段就引入了“因果推理”能力。
这一调解模拟了人类阅读文档时的因果视觉流,使LLM在举行内容解读之前,智能地重排视觉标记。
性能上,DeepSeek-OCR 2在仅接纳轻量模子的条件下,抵达了媲美Gemini-3 Pro的效果。
在OmniDocBench v1.5基准上,DeepSeek-OCR 2提升了3.73%,并在视觉阅读逻辑方面取得了显著希望。
值得一提的是,这次最新论文的作者依然是:魏浩然,孙耀峰和李宇琨三人组。
接下来,我们一起来看。
焦点更新:DeepEncoder V2
DeepSeek-OCR 2延续了前代OCR模子的经典架构,由编码器息争码器协同事情。
编码器认真将图像离散化为视觉标记(Visual Tokens),解码器则连系这些标记与用户指令天生最终文本输出。
如论文所说,DeepSeek-OCR 2此次焦点的升级在于编码器——
DeepEncoder V2
古板的视觉编码器通常凭证牢靠的“光栅扫描”(从左到右、从上到下)顺序处置惩罚图像,这在面临重大版面(如双栏文档、狼籍的表格)时,往往会切断语义的逻辑连贯性。
而DeepEncoder V2这次的更新解决的正是这一问题。
将此前的CLIP组件替换为轻量化的LLM架构(Qwen2-0.5B),这一转变付与了编码器因果推理能力
信息进入主解码器之前,编码器就先对视觉标记举行“智能重排”,使其更切合人类阅读逻辑。
为了实现这种智能重排,DeepEncoder V2引入了一种全新的双流注重力机制,其底层逻辑通过一个定制的注重力掩码(Attention Mask)来约束:
视觉标记(Visual Tokens):对应掩码左侧的全1区域,接纳双向注重力,保存全局建模能力,确保每一个标记都能“看”到整幅图。因果流盘问(Causal Flow Queries):对应掩码右边的三角区域(LowerTri)。这是附加在视觉标记后的可学习盘问向量。它们接纳因果注重力(即每个盘问只能关注之前的盘问及所有视觉标记)。
这种设计使得视觉标记之间互不滋扰(坚持原始特征),但每一个盘问标记却被强制要求只能“看到”它之前的标记以及所有的视觉标记。
相比古板的交织注重力结构,这确保视觉信息在所有层中都坚持“活跃”,从而与因果盘问举行深度信息交流。
别的,这现实上还建设了两阶段级联推理,乐成弥合了2D空间结构与1D语言建模之间的鸿沟:
第一阶段(编码器):通过盘问举行语义重排。第二阶段(解码器):对有序序枚举行自回归推理。
换句话说,在V1中,图像进入LLM时,顺序是写死的。
而在V2中,通过盘问标记(Learnable Query)的重排,模子在进入主解码器之前,就已经在编码器内部完成了一次“逻辑理顺”
其他组件
先容完DeepEncoder V2的焦点升级后,我们来串一下DeepSeek-OCR 2的整体架构:
首先是一开头的视觉分词器(SAM),其沿用了此前的架构,接纳了80M参数的SAM-base架构,并连系两层卷积层。
输出维度以前代的1024优化缩减至896,以对齐后续管线,这套分词器的设置实现了16倍的标记压缩
这种基于压缩的设计,以极小的参数开销,极大地释放了后续全局注重力?榈呐趟阊沽,让模子运行更轻快。
别的,为了在处置惩罚差别区分率图像时“不丢细节”,DeepSeek-OCR 2在编码阶段还引入了无邪的裁剪计划:
全局视图(Global View): 在1024×1024区分率下,天生256个盘问标记。局部裁剪(Local Crops): 针对768×768的细部,每个裁剪块对应144个盘问标记。
最终输入LLM的标记总数稳固在256到1120之间,与Gemini-1.5 Pro的视觉预算相匹配。
最后,在后端解码器部分,DeepSeek-OCR 2保存了3B参数的MoE结构(现实激活参数仅约 500M)。
训练流程与实验验证
在数据战略上,DeepSeek-OCR 2延续了与前代相同的数据源,OCR相关数据占比达80%。
其要害优化点有二:一是采样平衡化,将正文、公式与表格按3:1:1比例划分;
二是标签精简化,合并了如“图片说明”与“问题”等语义相似的结构标签。这种极小的底层差别,确保了其与基准测试之间具备高度的一致性与可比性。
在训练流程方面,DeepSeek-OCR 2接纳了三阶段的训练Pipelines:
编码器预训练:通过下一标记展望(Next Token Prediction)使命,使编码器掌握特征提取、压缩和重排序能力。盘问增强:冻结视觉分词器,联合优化LLM编码器息争码器,增强盘问体现。解码器微调:冻结编码器,仅优化解码器,从而在相同的算力(FLOPs)下实现更高的数据吞吐量。
在实验阶段,DeepSeek-OCR 2主要在OmniDocBench v1.5上举行评估,包括1355个页面,涵盖杂志、学术论文、研究报告等9大类文档。
并与Gemini-3 Pro、Qwen2.5-VL、InternVL3.5等先进模子及多种专业OCR计划举行比照 。
如开头所示,DeepSeek-OCR 2在OmniDocBench v1.5上抵达了91.09%的性能,相比基线提升了3.73%
阅读顺序(R-order)的编辑距离从0.085显著降至 0.057,证实晰 DeepEncoder V2 重新编排视觉信息的能力。
在相似的标记预算(1120)下,DeepSeek-OCR 2的文档剖析编辑距离(0.100)优于 Gemini-3 Pro(0.115)。
在现实生产中,在线用户日志的重复率从6.25%降至4.17%,PDF 生产数据重复率从 3.69% 降至 2.88%,证实晰模子逻辑视觉明确能力的提升。
整体来看,DeepSeek-OCR 2在坚持高压缩率的同时实现了显著的性能提升验证了使用语言模子架构作为视觉编码器的可行性,这为迈向统一的全模态编码器(omni-modal encoder)提供了路径。
One more thing
这篇论文的三位作者划分是:魏浩然,孙耀峰和李宇琨。
魏浩然曾就职于阶跃星辰,其时主导开发了意在实现“第二代OCR”的GOT-OCR2.0系统。
孙耀峰本科就读于北京大学,现于幻方AI从事大语言模子的相关研究,R1、V3中都有他的身影。
李宇琨,谷歌学术论文近万引研究员,也一连加入了包括DeepSeek V2/V3在内的多款模子研发。
最后,OCR 2延续了DeepSeek团队一直的开源精神。
项目已在GitHub开源,并同步上线HuggingFace,论文也一并释出。
GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2论文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
??时势1:日本搞黄网站
??01月29日,辽宁沈阳现“雪人阵”,
⒍关于信息网络联网事情。现在信息网络尚有四个单位没有实现与公司的联网,今年我们要完成这项事情,以周全实现公司信息网络的互联。前天已经召开了未联网单位主要认真人和有关职员的聚会,要求这几个单位连忙行动、起劲配合。
,黄色网站在线。??01月29日,外交部:建议马科斯总统多读读书,正确了解台湾问题来龙去脉,
时间流逝,凶寇被灭后,其他寇群并未泛起,小西天没有什么反应,或许以为穿山甲等葬身在大荒中的远古遗种的腹中了吧。
,女脱男摸一区二区,纲手巨胸被 爆乳动画,A片又大又长又粗又爽不卡AV。??时势2:暮色黄昏小说老王柳娇娇免费阅读
??01月29日,今年前3月中国太阳能发电装机容量同比增逾五成,
我们投资近亿元的新医院已经完工并获得了全县人民的认可,今年凭证医疗卫生体制刷新整体安排,二级公立医院也将举行刷新,这就要求我们要准确明确和熟悉这次公立医院刷新的目的、意义,它不是纯粹的职员核岗定编,而是一个有机的整体,它涵盖了整个医疗历程,以是随着医疗机构的身份治理向岗位治理转变,已有的内部治理体制已经不可知足新形势下医院自身生长的需要,因此,医院要战胜自满情绪,认真研究生长形势,实时发明医院现行治理体制爆发的种种问题和矛盾,要一直深化内部运行机制刷新,建设完善医院内部各项制度,抓好岗位治理,岗位是医院的细胞,岗位治理是医院最基础和最焦点的治理,一定要引起我们治理职员的重视。卫生系统知识分子多,专业手艺职员多,县医院又是全县医疗单位人才济济的地方,这就要求我们的治理者也要转变治理模式,坚持治理之道应以人为本的理念,要对这些职员以激励为主,多表扬少品评,多激励少指责。一是对内要多激励。激励是一个调动起劲性的历程,使人爆发内在的动力,朝着所期望的目的前进,这是激励的“正强化”。所谓激励不但单是要搞好物质奖励,主要的是做好精神奖励,要轰轰烈烈的表扬哪些作出效果的医务事情者,要使全院宽大职工中赶有目的、学有模范,要营造爱医院、比贡献;爱岗位、比手艺;爱病人,比效劳的一种起劲向上的优异气氛。二是要敢于处分。这是激励的“负强化”。“惩恶扬善”运用的好,就会起到“弃恶从善”正效应作用。但处分时一定要让各人明确,处分不是为了整人、罚人,而是作为激励的一种强硬手段,通过惩办过失来弘扬准确的工具,申饬各人不要做违纪事,同时要考究处分的要领,要掌握力度,既要救人又要教人,既要警示又要激励,使各人感应公正公正。要通过激励手段充分调动全院职工的主观能动性,周全提升治理水平和事情效能,增进医院整体事情的快速生长。
,免费看黄片AAA,性小说视频,成人扒开 伸进 91日本。??01月29日,两会受权发布|中华人民共和国国务院组织法,
她拍了拍手,不远处一道影子浮现,若一条幽灵般,无声无息到了近前,将小不点拎起,按在了酷寒的床上。
,2018人人操人人插,欧洲A黄片,黄色网站在线播放视频。??时势3:a 欧美
??01月29日,中国官方调整分年龄组失业率统计:更准确完整反映青年就业失业情况,
他修为极深,用上了类似“真犼啸”般的音波功,震醒了石笠,怕他神志不清而“乱语”。
?第二百六十七章 家法,黄色视频链接,91女教师裙子趴开掰开射,亚洲干批视频在线观看。??01月29日,五缘湾片区的“厦门实践”:打造人海和谐“城市新客厅”,
“是鳞马中的变种——独角兽,体形结实,通体银鹤发光,可日行万里,是速率奇快的坐骑!”
,久久精品国产99国产精人妖,免费精品视频网在线,寡妇在遗照前猛肉狂翻。??时势4:日韩有码一区二区三区
??01月29日,福建向金门供水六周年 累计供水逾3500万吨,
“小兄弟,听闻你破损了虚神界的通道,获得了一块宝骨,能给我们看一看吗?”为首的谁人青年笑道。
,欧美妓女一级黄片,www.773c.cn免费网站入口网址是什么,一级A片毛毛片。??01月29日,詹天佑之孙:“流动中国”是对詹天佑最好的告慰, 这么多年已往,事业上的成绩未能填补心中的空缺,未能学医仍然是李龙的遗憾?吹揭痪坦难缭缸呱涎б降孽杈,李龙心中的羡慕之情愈发强烈。,色噜噜大狠狠a,西西一级毛片在线视频,刘涛操逼毛片视频。
【农业农村部:第三次全国土壤普查外业调查采样任务圆满完成】
责编:苏振兰
审核:赵志强
责编:曹云川
Copyright (C) 2001- dzwww.com. All Rights Reserved
新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证
山东省互联网传媒集团主理 联系电话:0531-85193202 违法不良信息举报电话:0531-85196540
鲁ICP备09023866号-1 鲁公网安备 37010202000111号
Copyright (C) 2001- Dzwww 鲁ICP备09023866号-1