首页
新智元报道
编辑:定慧 倾倾
【新智元导读】硅谷的夜再次被点亮,OpenAI和Anthropic同日宣布最新模子。正当开发者们陶醉在Codex 5.3的极致速率时,Arena和Epoch两大权威榜单却给出了意想不到的终局讯断。
硅谷这波热闹,属实有点上头。
前脚Claude Opus 4.6刚刚夜袭宣布,后脚OpenAI就祭出了GPT-5.3-Codex。
两大「编程王者」正面硬刚,究竟谁的能力更强?社区现在还吵翻天~
今天,两大最硬核的权威机构Arena.ai和EpochAI,同时为Opus 4.6加冕!
Arena.ai:Opus 4.6全维度的屠榜
Arena.ai(前身是各人熟知的LMArena),这个被称为「大模子角斗场」的地方,迎来了新的霸主。
Claude Opus 4.6,在代码(Code)、文本(Text)、专家(Expert)三大竞技场,所有登顶第一!
代码竞技。罕惹按鶲pus 4.5暴涨106分。
文本竞技。旱梅1496,硬生生压了Gemini 3 Pro一头。
专家竞技。毫煜鹊诙50分,断层式领先。
这意味着什么?
意味着在数以万计的真实人类盲测中,Opus 4.6是谁人让你最想点「赞」的模子。
它不是偏科生,它是真正的六边形战士。
在代码实测中,这次的Opus 4.6比4.5提升了106分,远超之前Opus 4.5对Sonnet 3.7的领先幅度。
Claude Opus 4.6自Claude 3 Opus以来首次在文本竞技场排名第一。
同时在要害文本种别中位列榜首:
指令遵照
难题提醒
长盘问
Claude Opus 4.6在专家领域排名第一,领先优势达+49分。
专家排行榜接纳了一个框架构建,该框架能识别出真适用户提出的最难题、最专业的提醒。
有网友体现,能够在这三个领域同时拿下第一,是真正的SOTA,很是厉害。
有网友同时体现,这Opus 4.6拿下三冠王很厉害,可是真正对模子的磨练是前沿数学能力。
这不,EpochAI的评测新鲜出炉!
EpochAI:啃下「数学硬骨头」
若是说Arena是公共评审,那EpochAI的Frontier Math就是「奥数竞赛」。
这里考的不是简朴的加减乘除,而是人类尚未解决的数学难题。
Opus 4.6交出的答卷是:Tier1-3级别得分40%,Tier4(极难)级别得分21%。
这个效果直接在统计学上追平了GPT-5.2(xhigh)。
这是Anthropic的模子第一次在这个只要有一点「智商欠费」就交白卷的榜单上,站到了最前沿。
在难度更高的第4级测试中,Opus 4.6获得 21%的得分,解决了48道问题中的10道。
该效果同样与GPT-5.2(xhigh)的19%得分在统计上持平,仅次于 GPT-5.2(Pro)31%的得分。
物理、数学,这些一经是AI禁区的地方,现在成了Opus 4.6的后花园。
Opus 4.6模子体现很是抢眼的领域,多项得分位居前线:
OTIS Mock AIME 2024-2025:得分高达94.4%,展现了极强的竞赛级数学解题能力。
GPQA Diamond:得分90.5%,这是一个针对专家级科学问题的难题测试。
FrontierMath:这是一个极其难题的数学前沿测试,Opus 4.6 得分为40.0%。在更难的Tier 4级别中,它获得了20.8%的分数,排名第2。
在综合与推理评测中:
ARC AGI v1:得分94.0%,排名第1。这是评估模子通用人工智能(AGI)潜力的焦点指标之一,专注于笼统推理和模式识别。
SimpleQA Verified:得分46.5%。该测试主要评估模子回覆事实性问题的准确度(镌汰幻觉)。
Chess Puzzles(国际象棋谜题):得分17.0%,排名第14,相对而言这似乎是其较弱的一项。
Claude Opus 4.6在逻辑推理(ARC AGI)和高难度数学(FrontierMath、AIME)方面处于天下领先水平。
虽然它在某些特定领域(如国际象棋或简朴问答)不是第一,但其综合能力(ECI 指数 153)使其成为目今最顶尖的模子之一。
巅峰对决:速率与审美的较量
权威榜单虽然为Opus 4.6封神,但开发者们的实战也同样精彩,并且似乎更偏幸GPT-5.3-Codex。
GPT-5.3-Codex就像一个喝了十杯浓缩咖啡的顶级黑客。
顶级开发者Banteg用它挑战不可能,仅用14天就复刻了2003年的邪典游戏《Crimsonland》。
极客Karel把它当成钢铁侠的贾维斯用。一个月烧掉10000美元API费,让它天天天生700个科研假设,自动扫描Slack纪录,自动提交接码。
来详细看看顶级程序员怎样使用GPT-5.3-Codex。
代码考古:14天复生《Crimsonland》,屎山消逝术
在程序员的职场恶梦里,排第一的永远是去接手前任留下的、没有文档、作者失联、注释像天书一样的赛博废墟。
但2026年,顶级开发者Banteg告诉我们:在强力AI眼前,没有不可维护的屎山,只有舍不得烧的算力。
Banteg盯上了2003年的邪典射击游戏《Crimsonland》(血腥大地)。
这款游戏是许多80、90后的童年回忆,但它的底层代码堪称废墟。
若是凭证古板流程,至少需要一个资深团队闭关1个月,光是理清那些远古的内存逻辑就能让人少活五年。
效果,Banteg仅用了14天,就单枪匹马完成了全平台重构。
需要格外注重的是,该游戏资源用的.jaz名堂,是一种消逝了20年的私有协议,全网零文档。
换做人类,至少得猜半年。但Codex-5.3仅凭剖析二进制流特征,硬猜出了头文件结构和加密偏移量!
Jaz拿着一张JPG,并用自界说的运行长度编码的alpha通道举行包裹,然后再用zlib将整个工具重新压缩历程图
然后,天生一套现代化的C++/Rust渲染接口,让2003年的像素资源在2026年的4K屏幕上重现。
这个许多人的童年回忆,终于在23年后重见天日。Banteg在X上果真了所有代码「
GitHub代码传送门:https://github.com/banteg/crimson
以前公司裁人不敢动老员工,是怕没人能接那一堆乱码。
现在,大模子直接把这些代码塞进上下文,两周就能给你出一个全新的、注释清晰的重构版。
月费1万美金的Codex实战履历
在顶级极客Karel手里,Codex被玩成了投资游戏。
OpenAI的研究科学家Aidan说公司Karel一小我私家的Codex的使用量是其他人的十倍之多。
以是他的看法很是主要。
Karel的单月账单是10,000美元!
换来的是一套足以让古板科研机构倒闭的「非人知识循环」。
真正的突破在于让Codex一连纪录并优化自身的事情流程。
Codex会将事情条记和辅助工具提交到monorepo的小我私家文件夹中。
这些条记并非供人阅读,而是为了在后续会话中通过检索这些「履历」,提升Codex的处置惩罚速率和准确性。
Karel将Codex作为一名极其勤劳的「搜索智能体」和「尽职视察员」:
跨渠道聚合:Codex能自动爬取Slack频道、阅读讨论、获取实验分支并精选代码更改。
自主决议:它可以基于总结的条记,在搭建实验框架时自主做出重大的超参数决议。
假设天生:在几小时内通太过析Slack、截图、文档和表格,天生了凌驾700个关于模子行为的可测试假设。
其中,最要害的是「自动Helper提交」。
AI在执行使命时,会向Git提交「HelperCommits」。内里纪录了给下一次迭代中的AI准备的中心态上下文。
这样一来,模子下一次处置惩罚类似使命时,会先扫描这些高密度的「HelperCommits」,直接省掉80%的试错路径。
这种「暴力美学」的回报同样惊人。
Karel曾实验让Agent扫描公司内部历年累月的Slack纪录和杂乱文档。
几小时内,AI竟然挖掘出了700条具有科研价值的假设,并自动关联了相关的历史代码段。
10000美元买的API,赚麻了!
越发厉害的用法是使用GPT-5.3-codex同时治理多个子智能体,划分认真Slack调研、代码研究、代码编写和数据科学。
Karel只与一个「指挥官」智能体对话,由其协调解个智能体集群,从而让他自己从繁琐的并行事情中解脱。
ClaudeOpus 4.6:深图远虑的「艺术家」
若是说Codex是快,那Opus 4.6就是稳,并且美。
美学封神:在HTML5游戏开发实测中,Opus 4.6展现了惊人的「审美智商」。它写出的代码不但0 Bug,并且界面结构、配色计划直接抵达了专业UI设计师的水准。
逻辑熵控制:它也许会思索得更久(Token消耗多60%),但那是它在举行「头脑链自我修正」。它在现在的Stirrup框架下,拥有了更强的「逻辑自检」能力。它不是在瞎蒙,它是在推演。
Stirrup框架:给AI装上「小脑」
Opus 4.6之以是能碾压其他模子,得益于它对Stirrup框架的深度适配。
在这个架构下,AI拥有了实打实的Shell权限以及高度隔离的E2B沙箱。
它不但能挪用编译器,还能通过5大焦点工具联动,在亚毫秒级的时间内判断目今使命是否需要引入特另外逻辑自检。
以「视频排期表自动化」为例,它不但能算出逻辑最优解,还能凭证品牌调性自动调解输特殊式的视觉审美。
统一组数据,差别模子天生的效果
这种降维攻击,让一经的Prompt Engineering像个小学生。
逻辑熵控制:多花60%的钱,但效果更好
许多老板在看到账单时会肉疼:Opus 4.6处置惩罚同类使命的Token消耗比竞品横跨约60%。
但手艺玩家不在乎这些,他们只看「逻辑熵」。
Opus 4.6在输出前,会在后台举行猖獗的头脑链自我修正。自动推翻不对理的路径,通过大宗的内部Token消耗,换取逻辑的绝对准确。
不再做选择题
这场巅峰对决,与其说是分出了输赢,不如说是为开发者铺平了通往「一人公司」的最后一块拼图。
左手是极致速率的Codex 5.3,右手是极致审美的Opus 4.6。
以前我们纠结选谁,现在全都要:用Codex快速搭建框架,用Opus精修逻辑与交互。
当大模子的能力已经溢出屏幕,编程这件「苦差事」,终于酿成了纯粹的创立力释放。
限制你想象力的,再也不是手艺门槛,而只剩下你的脑洞了。
参考资料:
https://x.com/VictorTaelin/status/2019541668517617859
https://x.com/aidan_mclau/status/2019478632532472017
https://x.com/KarelDoostrlnck/status/2019477361557926281
https://x.com/ArtificialAnlys/status/2019474911761473605
https://x.com/banteg/status/2017950426327359947
《强奸电影网》,《Q8X2R7L1T4J5M9B6W3》国产一级性爱电网站
“在线AⅤ视频”
国产精品久久一级C片
……
02月08日
“德国大鸡吧干黑人”牧星者的星辰呼唤:盖楼抽游戏道具
↓↓↓
02月08日,两岸菁英文化研习活动在天津大学开幕 海峡同文书院揭牌成立,4438全国最大成人色情网,A片黄色一级片,嘉明任务动画免费资源获取,手机在线免费黄色录像
02月08日,AI绘两会|文旅大热,绝不仅是各地宣传的花式“整活儿”,别告诉妈妈mama下载2024,日本成年人久艹在线,A片又大又长又粗又爽不卡,蔡小熊定制私人订制视频
02月08日,全球看春晚!2600多家海外主流媒体将直播和报道总台春晚,在线国产性爱福利,超碰免费公开网站,日本亚洲综合伊人久久水蜜桃,免费的毛片免费放
02月08日|好评中国·五四青年节漫评③丨铭记金刚川上的“英雄桥”|亚洲AV无码秘 蜜桃目黑惠|男生坤坤擢女生坤坤|9·1免费版安装|点 不下W看 网站
02月08日|爱国卫生月:儿童如何保持健康体重?专家支招|人人操在线免费播放|亚洲视频在线观看|aas免费大黄片|久久 免费精品视频
02月08日|新疆克孜勒苏州阿图什市发生3.4级地震 震源深度10千米|91日本福利视频|国产午夜91|国产AV无码片毛片一级久二区|猎奇9·1……
02月08日,雪城牡丹江:第九届国际冬捕节在镜泊湖启幕,国产综合精品久久无码DVD,欧美性爱午夜影院,国产区精品视频线三区,中文字幕福利一区二区三区
02月08日,海归人才相聚湖北宜昌 共谋创新创业新机遇,午夜久久精品无码,国产精品免费AⅤ片在线播放,国产在线精品免费观看一二三,日本69啪啪视频
02月08日|山东申建中欧班列集结中心 持续融入共建“一带一路”|亚洲美女操逼|黄色A三级三级三级视频免费看|亚洲中久中文字幕无码|色色视频中文字幕
02月08日,浙江:用历史文化让美丽城镇更具韵味,一级A片操逼,油管十八+黄色,欧美久久精品A片,精品国产电影网站
02月08日,智能家居:新消费领域的新机会,高清一区二区免费视频丶,日韩在线播放视频,五月天婷婷超碰人人看,同性女女黄网站在线观看国外
02月08日,我国自主研制首座桩基式外输原油单点投用,精品国产国产精品,美女被男人桶到爽免费视频,国内自拍高清AV专区,精选搞黄色视频的网站
02月08日|“赋予法中友谊更多力量”|毛片官方网站|桥本有菜免费AV一区二区三区|涩谷果步爆乳无码aⅴ一区二区|www.桃色阁.com
02月08日|中蒙跨境自驾游“万里茶道”蓝色之旅启动|星野vs光头原视频|在线观看黄A片免费网站免|一级特莫大片免费网站看√片在线观看,三级片大全,免费莫色片|绿帽 论坛
02月08日|四川省甘孜州政协原党组书记、主席雷建平被开除党籍和公职|韩国日本黄色网站|色就色综合网站|人妖在线精品一区二区三区|A级毛片无码免费真人视频百度
沙地塌陷埋压2孩童众人刨沙施救,第17届亚洲电影大奖颁奖典礼|上海“家门口服务”不断优化 居民幸福持续“加码”|五姑娘视频在线观看最新一期|女人18毛片A片久久18|vk茶茶的脚底板|VK|中学沟神最尴尬三个版本
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
江西鄱阳湖南矶湿地:“观鸟热”带动旅游热 村民乐享生态红利
西安铁路局全力应对“五一”假期返程客流高峰
“深海一号”二期工程:综合处理平台陆地建造完工
国家发改委:银发经济蕴含着巨大的发展机遇
中新真探:防晒指数越高防晒霜效果越好吗?
第八次全国残疾预防日广西宣传活动启动
第六届浙江国际智慧交通产业博览会开幕 “黑科技”亮相吸睛
浙江象山统一战线成员爱心接力30小时 卖完3000箱柑橘
新能源车企开启新春大促“第一响”
第六届浙江国际智慧交通产业博览会开幕 “黑科技”亮相吸睛
日韩特级黄色视频
涩涩视频网站链接入口
爆 喷水 洗澡 网站葡萄
骇爪全身漫画免费正版下载
欧洲老头操美国黑寡妇
欧美色视频一区二区
亚洲女性天堂网
国产精品黄色大片在线看
女人的奶头
欧美在线爱

闽公网安备 35010302000113号