地表最强编程王者PK！Opus 4.6双榜单封神， Codex 5.3速率满分

新智元报道

编辑：定慧倾倾

【新智元导读】硅谷的夜再次被点亮，OpenAI和Anthropic同日宣布最新模子。正当开发者们陶醉在Codex 5.3的极致速率时，Arena和Epoch两大权威榜单却给出了意想不到的终局讯断。

硅谷这波热闹，属实有点上头。

前脚Claude Opus 4.6刚刚夜袭宣布，后脚OpenAI就祭出了GPT-5.3-Codex。

两大「编程王者」正面硬刚，究竟谁的能力更强？社区现在还吵翻天～

今天，两大最硬核的权威机构Arena.ai和EpochAI，同时为Opus 4.6加冕！

Arena.ai：Opus 4.6全维度的屠榜

Arena.ai（前身是各人熟知的LMArena），这个被称为「大模子角斗场」的地方，迎来了新的霸主。

Claude Opus 4.6，在代码（Code）、文本（Text）、专家（Expert）三大竞技场，所有登顶第一！

代码竞技�。罕惹按鶲pus 4.5暴涨106分。

文本竞技�。旱梅�1496，硬生生压了Gemini 3 Pro一头。

专家竞技�。毫煜鹊诙�50分，断层式领先。

这意味着什么？

意味着在数以万计的真实人类盲测中，Opus 4.6是谁人让你最想点「赞」的模子。

它不是偏科生，它是真正的六边形战士。

在代码实测中，这次的Opus 4.6比4.5提升了106分，远超之前Opus 4.5对Sonnet 3.7的领先幅度。

Claude Opus 4.6自Claude 3 Opus以来首次在文本竞技场排名第一。

同时在要害文本种别中位列榜首：

指令遵照

难题提醒

长盘问

Claude Opus 4.6在专家领域排名第一，领先优势达+49分。

专家排行榜接纳了一个框架构建，该框架能识别出真适用户提出的最难题、最专业的提醒。

有网友体现，能够在这三个领域同时拿下第一，是真正的SOTA，很是厉害。

有网友同时体现，这Opus 4.6拿下三冠王很厉害，可是真正对模子的磨练是前沿数学能力。

这不，EpochAI的评测新鲜出炉！

EpochAI：啃下「数学硬骨头」

若是说Arena是公共评审，那EpochAI的Frontier Math就是「奥数竞赛」。

这里考的不是简朴的加减乘除，而是人类尚未解决的数学难题。

Opus 4.6交出的答卷是：Tier1-3级别得分40%，Tier4（极难）级别得分21%。

这个效果直接在统计学上追平了GPT-5.2(xhigh)。

这是Anthropic的模子第一次在这个只要有一点「智商欠费」就交白卷的榜单上，站到了最前沿。

在难度更高的第4级测试中，Opus 4.6获得 21%的得分，解决了48道问题中的10道。

该效果同样与GPT-5.2（xhigh）的19%得分在统计上持平，仅次于 GPT-5.2（Pro）31%的得分。

物理、数学，这些一经是AI禁区的地方，现在成了Opus 4.6的后花园。

Opus 4.6模子体现很是抢眼的领域，多项得分位居前线：

OTIS Mock AIME 2024-2025：得分高达94.4%，展现了极强的竞赛级数学解题能力。

GPQA Diamond：得分90.5%，这是一个针对专家级科学问题的难题测试。

FrontierMath：这是一个极其难题的数学前沿测试，Opus 4.6 得分为40.0%。在更难的Tier 4级别中，它获得了20.8%的分数，排名第2。

在综合与推理评测中：

ARC AGI v1：得分94.0%，排名第1。这是评估模子通用人工智能（AGI）潜力的焦点指标之一，专注于笼统推理和模式识别。

SimpleQA Verified：得分46.5%。该测试主要评估模子回覆事实性问题的准确度（镌汰幻觉）。

Chess Puzzles（国际象棋谜题）：得分17.0%，排名第14，相对而言这似乎是其较弱的一项。

Claude Opus 4.6在逻辑推理（ARC AGI）和高难度数学（FrontierMath、AIME）方面处于天下领先水平。

虽然它在某些特定领域（如国际象棋或简朴问答）不是第一，但其综合能力（ECI 指数 153）使其成为目今最顶尖的模子之一。

巅峰对决：速率与审美的较量

权威榜单虽然为Opus 4.6封神，但开发者们的实战也同样精彩，并且似乎更偏幸GPT-5.3-Codex。

GPT-5.3-Codex就像一个喝了十杯浓缩咖啡的顶级黑客。

顶级开发者Banteg用它挑战不可能，仅用14天就复刻了2003年的邪典游戏《Crimsonland》。

极客Karel把它当成钢铁侠的贾维斯用。一个月烧掉10000美元API费，让它天天天生700个科研假设，自动扫描Slack纪录，自动提交接码。

来详细看看顶级程序员怎样使用GPT-5.3-Codex。

代码考古：14天复生《Crimsonland》，屎山消逝术

在程序员的职场恶梦里，排第一的永远是去接手前任留下的、没有文档、作者失联、注释像天书一样的赛博废墟。

但2026年，顶级开发者Banteg告诉我们：在强力AI眼前，没有不可维护的屎山，只有舍不得烧的算力。

Banteg盯上了2003年的邪典射击游戏《Crimsonland》（血腥大地）。

这款游戏是许多80、90后的童年回忆，但它的底层代码堪称废墟。

若是凭证古板流程，至少需要一个资深团队闭关1个月，光是理清那些远古的内存逻辑就能让人少活五年。

效果，Banteg仅用了14天，就单枪匹马完成了全平台重构。

需要格外注重的是，该游戏资源用的.jaz名堂，是一种消逝了20年的私有协议，全网零文档。

换做人类，至少得猜半年。但Codex-5.3仅凭剖析二进制流特征，硬猜出了头文件结构和加密偏移量！

Jaz拿着一张JPG，并用自界说的运行长度编码的alpha通道举行包裹，然后再用zlib将整个工具重新压缩历程图

然后，天生一套现代化的C++/Rust渲染接口，让2003年的像素资源在2026年的4K屏幕上重现。

这个许多人的童年回忆，终于在23年后重见天日。Banteg在X上果真了所有代码「

GitHub代码传送门：https://github.com/banteg/crimson

以前公司裁人不敢动老员工，是怕没人能接那一堆乱码。

现在，大模子直接把这些代码塞进上下文，两周就能给你出一个全新的、注释清晰的重构版。

月费1万美金的Codex实战履历

在顶级极客Karel手里，Codex被玩成了投资游戏。

OpenAI的研究科学家Aidan说公司Karel一小我私家的Codex的使用量是其他人的十倍之多。

以是他的看法很是主要。

Karel的单月账单是10,000美元！

换来的是一套足以让古板科研机构倒闭的「非人知识循环」。

真正的突破在于让Codex一连纪录并优化自身的事情流程。

Codex会将事情条记和辅助工具提交到monorepo的小我私家文件夹中。

这些条记并非供人阅读，而是为了在后续会话中通过检索这些「履历」，提升Codex的处置惩罚速率和准确性。

Karel将Codex作为一名极其勤劳的「搜索智能体」和「尽职视察员」：

跨渠道聚合：Codex能自动爬取Slack频道、阅读讨论、获取实验分支并精选代码更改。

自主决议：它可以基于总结的条记，在搭建实验框架时自主做出重大的超参数决议。

假设天生：在几小时内通太过析Slack、截图、文档和表格，天生了凌驾700个关于模子行为的可测试假设。

其中，最要害的是「自动Helper提交」。

AI在执行使命时，会向Git提交「HelperCommits」。内里纪录了给下一次迭代中的AI准备的中心态上下文。

这样一来，模子下一次处置惩罚类似使命时，会先扫描这些高密度的「HelperCommits」，直接省掉80%的试错路径。

这种「暴力美学」的回报同样惊人。

Karel曾实验让Agent扫描公司内部历年累月的Slack纪录和杂乱文档。

几小时内，AI竟然挖掘出了700条具有科研价值的假设，并自动关联了相关的历史代码段。

10000美元买的API，赚麻了！

越发厉害的用法是使用GPT-5.3-codex同时治理多个子智能体，划分认真Slack调研、代码研究、代码编写和数据科学。

Karel只与一个「指挥官」智能体对话，由其协调解个智能体集群，从而让他自己从繁琐的并行事情中解脱。

ClaudeOpus 4.6：深图远虑的「艺术家」

若是说Codex是快，那Opus 4.6就是稳，并且美。

美学封神：在HTML5游戏开发实测中，Opus 4.6展现了惊人的「审美智商」。它写出的代码不但0 Bug，并且界面结构、配色计划直接抵达了专业UI设计师的水准。

逻辑熵控制：它也许会思索得更久（Token消耗多60%），但那是它在举行「头脑链自我修正」。它在现在的Stirrup框架下，拥有了更强的「逻辑自检」能力。它不是在瞎蒙，它是在推演。

Stirrup框架：给AI装上「小脑」

Opus 4.6之以是能碾压其他模子，得益于它对Stirrup框架的深度适配。

在这个架构下，AI拥有了实打实的Shell权限以及高度隔离的E2B沙箱。

它不但能挪用编译器，还能通过5大焦点工具联动，在亚毫秒级的时间内判断目今使命是否需要引入特另外逻辑自检。

以「视频排期表自动化」为例，它不但能算出逻辑最优解，还能凭证品牌调性自动调解输特殊式的视觉审美。

统一组数据，差别模子天生的效果

这种降维攻击，让一经的Prompt Engineering像个小学生。

逻辑熵控制：多花60%的钱，但效果更好

许多老板在看到账单时会肉疼：Opus 4.6处置惩罚同类使命的Token消耗比竞品横跨约60%。

但手艺玩家不在乎这些，他们只看「逻辑熵」。

Opus 4.6在输出前，会在后台举行猖獗的头脑链自我修正。自动推翻不对理的路径，通过大宗的内部Token消耗，换取逻辑的绝对准确。

不再做选择题

这场巅峰对决，与其说是分出了输赢，不如说是为开发者铺平了通往「一人公司」的最后一块拼图。

左手是极致速率的Codex 5.3，右手是极致审美的Opus 4.6。

以前我们纠结选谁，现在全都要：用Codex快速搭建框架，用Opus精修逻辑与交互。

当大模子的能力已经溢出屏幕，编程这件「苦差事」，终于酿成了纯粹的创立力释放。

限制你想象力的，再也不是手艺门槛，而只剩下你的脑洞了。

参考资料：

https://x.com/VictorTaelin/status/2019541668517617859

https://x.com/aidan_mclau/status/2019478632532472017

https://x.com/KarelDoostrlnck/status/2019477361557926281

https://x.com/ArtificialAnlys/status/2019474911761473605

https://x.com/banteg/status/2017950426327359947

《午夜啪啪网站》，《Q8X2R7L1T4J5M9B6W3》

黄色AV三级片亚洲

“影音先锋中资源网站 www.o10sgj.com”

欧洲野外A片

……

02月08日

“国产91精品手机”中餐厅第八季

↓↓↓

澳门今年4月起停办赛马活动，是感觉它快猫格分裂了

02月08日，“葡韵宁港醉美同行”宁夏葡萄酒品鉴会在北京举行，在线免费看国产黄色视频，午夜网址免费，小h片在线，欧美丝交

02月08日，四川成都：35名“熊猫小记者”将展开全球追访之旅，在线一区二区中文，亚洲另类小说视频图片，欧美精品视频二区，成年人视频免费看

02月08日，遇见福建：武夷山首办“溪洲村荸荠节”，亚洲一级av无码毛片精品，国产一码二码免费观看，成人激情网日韩一区在线，日韩AV三级片网站

02月08日，美欧相继出台涉华经贸限制措施中国贸促会：坚决反对，久久精品三级国，女性左腿叉开腿肚子中间疼视频大全，国产女人野外一级毛片，毛片三级电影

02月08日，华侨大学旅游管理学科成立40周年，葡京99热这里只有精品_，《困困电梯》筱田优，在线观看中文字幕码2018，自慰国产

02月08日，北京保利2024秋拍即将举槌傅抱石、吴冠中、弘一等大师作品亮相，玖玖玖玖在线视频，人人莫人人干人人操人人人摸，英语班长乖乖挽起裙子怎么小说，日韩性爱无码片性色

02月08日，五部门：持续推进农村危房改造和抗震改造，和平精英不良网站APP下载，毛片小视频推荐，中国xv免费安装包，色一情一乱一伦一小视频

02月08日，国家邮政局：从严从紧、从细从实抓好枪爆物品禁寄管理，12至16末成年毛片高清，日本亚洲精品，caowww.，91在线国内在线

监制：邓金木

策划：赖晗

主创：唐征宇林箴贺陈佛烘颜亦阳陈林韵

编辑：王家菁、段圣祺

k1体育麻将胡了

下载APP

所有

地表最强编程王者PK！Opus 4.6双榜单封神， Codex 5.3速率满分

热门视频

k1体育麻将胡了

下载APP

所有

地表最强编程王者PK！Opus 4.6双榜单封神， Codex 5.3速率满分

热门视频

地表最强编程王者PK！Opus 4.6双榜单封神， Codex 5.3速率满分