OpenAI、Anthropic发新模子，一个替你写代码，一个替公司管流程

破晓，Anthropic和OpenAI同时上线了新模子Claude Opus 4.6和GPT-5.3-Codex，给两家企业本就在为超等碗广告互呛的强烈气氛又添了一把柴火。当全雅观众还在为它俩斥资数百万美元投放的互怼广告津津乐道时，它们已经杀到了同日发新模子这样的正面交锋战场上。

Anthropic宣布Claude Opus 4.6：搭载处于Beta阶段的1M上下文窗口

Anthropic宣布了Claude Opus 4.6，其并非仅仅是参数目的增添，而是在多个要害维度上实现了实质性的更智慧和更可用。一个值得关注的亮点是它那处于Beta阶段的1M上下文窗口。已往的模子在处置惩罚极长文本时，经常泛起上下文侵蚀的问题，即模子性能随着文本长度增添而显著下降，导致它遗忘或者混淆较早之前的信息。

而Claude Opus 4.6在著名的大海捞针基准测试MRCR v2上，效果抵达了76%，远超前代Sonnet 4.5的18.5%，这证实它能够真正有用地使用超长下文，在海量文档中精准定位并提取被深埋的要害信息，从而胜任大型代码库剖析、多篇论文综述、跨会话长程使命妄想等场景。

（泉源：https://www.anthropic.com/news/claude-opus-4-6）

在推理能力和编码能力上，Claude Opus 4.6在多项权威基准测试中确立了行业领先职位，特殊是在需要自主妄想和多步执行的智能体编码使命上。好比，在Terminal-Bench 2.0中它的测试效果排名第一。

现实体现就是，当你交给它一个重大的开发使命时间，它会举行越发审慎的妄想，对代码举行越发彻底的自我审查和自我调试，并能在大型项目中坚持更好的偏向感和一致性。也就是说不再是简朴地天生一段代码，现实上是在饰演一个更有履历的开发者角色。

为了让这种深度能力越发容易被调控，Anthropic引入了起劲水平（Effort）控制参数，开发者现在可以在低、中、高、最大这四个级别中举行选择。

在高模式或者最大模式下，模子会投入更多盘算资源举行深度思索，很是适合解决一些棘手问题；而关于简朴的盘问，切换到中模式或者低模式则可以获得更快的响应并能降低本钱。与之配套的自顺应思索功效，则允许模子凭证上下文自行判断何时需要启动深度推理，进一步提高了无邪性。

为相识决长会话或智能体使命中必定遇到的上文长度限制问题，API还能提供上下文压缩Beta功效。当对话靠近预设的token阈值时，模子会自动将较早的上下文举行智能摘要并替换，从而为新的交互腾出空间，让超长程使命成为了可能，而不但仅是理论上地支持长上下文。

（泉源：https://www.anthropic.com/news/claude-opus-4-6）

在应用层，Claude正在深度融入生产力工具链。Claude Code引入了智能体整体的研究预览功效，允许建设多个协同事情的AI智能体来并行处置惩罚使命，例犹如时对代码库的差别模块举行审查。

而关于更普遍的办公场景，Claude in Excel和全新推出的Claude in PowerPoint研究预览版，将模子的推理能力和天生能力直接嵌入到电子表格和幻灯片制作中。它能执行公式操作，也能通过明确你的数据意图举行多步妄想；在PPT中，它可以明确企业品牌模板和字体，天生气概一致的内容。

清静与能力对齐一直是Anthropic的重点之一。据相识，Opus 4.6在坚持与顶尖模子相当的清静防护水平的同时，其太过拒绝的概率降低到了近期Claude模子中的最低点。这意味着它在有用阻挡有害请求的同时，关于通俗问题和良性问题的回应越发开放和有用。针对该模子的网络清静能力，Anthropic也专门开发了新的检测探针，并将其用于辅助发明和修复开源软件误差等防御性用途。

总的来说，Claude Opus 4.6一定水平上代表着大模子正从对话式问答工具向可肩负重大事情的智能体同伴演进。它关于超长上下文的适用化支持、细腻化的推理控制、以及深度集成的事情流，能够进一步地提高用户效率。

OpenAI推出GPT-5.3-Codex：可能是现在最强盛的智能体编码模子

OpenAI此次推出的是GPT-5.3-Codex，被称为是迄今为止最强盛的智能体编码模子，能够自力接受涉及研究、工具使用和重大执行的恒久使命。也就是说，一个可以一连事情数天之久、可以从零最先构建出重大游戏应用的AI降生了，在它事情的历程中你可以随时和其对话并调解事情偏向，无需担心失去长上下文影象。

（泉源：https://openai.com/index/introducing-gpt-5-3-codex/）

在多项要害基准测试中，GPT-5.3-Codex都创下了新的行业纪录，以77.3%的准确率大幅逾越了前代模子在权衡终端编程手艺的Terminal-Bench 2.0基准测试上的体现，并在更严酷的、涵盖多语言的SWE-Bench Pro软件工程测评中抵达了领先水平。

GPT-5.3-Codex的能力界线已经从纯粹的编码拓展到整个知识事情领域。在权衡真实天下职业使命的GDPval评估中，其体现能力与OpenAI的通用旗舰模子GPT-5.2相当。在制作金融剖析PPT、设计零售培训文档以及编写商业妄想书中，GPT-5.3-Codex能够输出专业的可使用内容。

（泉源：https://openai.com/index/introducing-gpt-5-3-codex/）

OpenAI透露，GPT-5.3-Codex的开发历程自己就是一个自我实现的规范，OpenAI使用该模子的早期版原来调试其自身的训练历程、治理安排并诊断测试效果，加速了整个模子的研发周期。总结来说，GPT-5.3-Codex的推出让AI进一步地从一个期待指令的编程工具转变为一个能自动思索、跨领域执行并与人类实时协作的电脑同伴。

急于变现？OpenAI推出AI企业级产品Frontier

若是说这次统一天宣布新品，OpenAI的赢点之一或许在多发了一样新品，那就是企业级产品Frontier。它不是一个大模子，是一个专门为企业打造的、可用于规�；菇ā⒛芄话才藕椭卫鞟I智能体的平台。它的焦点目的是将模子能力，真正转化为企业内可协同、可管控、能直接创立价值的AI同事。

（泉源：https://openai.com/index/introducing-openai-frontie）

已往几年，只管许多企业实验引入AI，但往往陷入了试点逆境，一个个自力的AI应用像孤岛一样，缺乏关于企业整体营业配景的明确，难以融入焦点流程。Frontier旨在解决这一问题，它为企业AI智能体提供了四大概害支持：共享的营业配景明确、可靠的执行情形、一连的学习优化机制，以及明确的身份权限和清静界线。

简朴来说，Frontier试图像培训一位刚入职的新员工一样，来设置一个AI智能体。它会买通企业内部固有的数据客栈、CRM系统和内部应用，让AI明确信息怎样流动、决议在那里爆发。

在此基础之上，AI智能体可以在一个受控的执行情形中，使用工具、运行代码、处置惩罚文件，从而能够现实地完成种种知识事情使命，并在历程中积累影象，以便能够越做越好而不是越做越差。同时，每个AI智能体都拥有自力的身份和明确的权限护栏，确保其在敏情绪形和受羁系的情形里也能被清静地使用。

现在，OpenAI已经和惠普、甲骨文以及Uber等企业相助。OpenAI还举了和一家大型制造商相助的案例，通过安排基于Frontier的智能体，后者将生产优化剖析事情从六周缩短到了一天。

着实也可以看出，OpenAI的变现愿望是很是强的，此次陪同新模子一并推出Frontier，也反应出其战略重心正从提供简单的模子API转向深入的企业重大事情量，深入到提供端到端解决计划的田地。关于希望将AI转化为现实竞争优势的企业而言，Frontier或许是一个值得关注的备选计划。

而这一破晓对决何尝不是一个新的超等碗时刻？Anthropic的首创人原来就是OpenAI的前员工，让这一对决更是增添了火药味。

整体来看，Claude Opus 4.6的焦点优势在于细腻控制和可靠性，GPT-5.3-Codex则展现了OpenAI的系统整合能力。前者胜在深度和可靠，后者强在广度和进化速率。未来究竟孰强孰弱，主要还看谁家产品能够转化为真正不可替换的工业生长效果。

参考资料：

https://www.anthropic.com/news/claude-opus-4-6