菁菁草在线

电脑版下载

95763
5

菁菁草在线截图Q8X2R7L1T4J5M9B6W3

内容详情

菁菁草在线

《科创板日报》1月21日讯（编辑宋子乔） 2025年1月，DeepSeek-R1上线，此时正值R1模子宣布一周年之际，DeepSeek新模子“MODEL1”曝光。

北京时间1月21日，DeepSeek官方GitHub客栈更新了一系列FlashMLA代码，借助AI对所有总代码文件数:114个（包括.py, .md, .txt, .sh, .cpp, .cu, .h文件）举行剖析，发明了一个此前未果真的模子架构标识“MODEL1”，共被提及31次。

FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具，专门加速大模子“推理天生”这一环节。该算法的实现基础MLA（多层注重力机制），是DeepSeek模子（如V2、V3）实现低本钱、高性能的要害手艺之一，用于在模子架构层面镌汰内存占用，最大化地使用GPU硬件。

MODEL1是DeepSeek FlashMLA中支持的两个主要模子架构之一，另一个是DeepSeek-V3.2。据推测，MODEL1很可能是一个高效推理模子，相比V3.2，内存占用更低，适合边沿装备或本钱敏感场景。它也可能是一个长序列专家，针对16K+序列优化，适合文档明确、代码剖析等长上下文使命。它也可能是一个长序列专家，针对16K+序列优化，适合文档明确、代码剖析等长上下文使命。

另外，MODEL1的硬件实现跨越多个GPU架构。在英伟达H100/H200（SM90架构）上有两个版本：model1_persistent_h64.cu用于64头设置，model1_persistent_h128.cu用于128头设置。在最新的B200（SM100架构）上有专门的Head64内核实现，而SM100的Head128实现仅支持MODEL1，不支持V3.2，有人推测DeepSeek为适配英伟达新一代GPU，专门优化了MODEL1的架构。

DeepSeek已宣布的主要模子是两条手艺蹊径的代表：追求极致综合性能的V系列“万能助手”和专注于重大推理的R系列“解题专家”。

2024年12月推出的V3是DeepSeek的主要里程碑，其高效的MoE架构确立了强盛的综合性能基础。以后，DeepSeek在V3基础上快速迭代，宣布了强化推理与Agent（智能体）能力的V3.1，并于2025年12月推出了最新正式版V3.2。同时，还推出了一个专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale。2025年1月宣布的R1，则通过强化学习，在解决数学问题、代码编程等重大推理使命上体现卓越，并首创了“深度思索”模式。

科技媒体The Information月初爆料称，DeepSeek将在今年2月中旬夏历新年时代推出新一代旗舰AI模子——DeepSeek V4，将具备更强的写代码能力。

此前，DeepSeek研究团队陆续宣布了两篇手艺论文，划分先容了名为“优化残差毗连（mHC）”的新训练要领，以及一种受生物学启发的“AI影象�？椋‥ngram）”。这一行为不禁引起用户推测，DeepSeek正在开发中的新模子有可能会整合这些最新的研究效果。