首页
智工具作者|王涵编辑|心缘
智工具2月6日报道,今天破晓,Anthropic正式宣布旗舰模子Claude Opus 4.6,是Anthropic首款开启100万token上下文窗口测试功效的旗舰级模子。
Opus 4.6具备更缜密的妄想能力,能维持更长时间的智能体使命执行,可以在重大代码库中稳固运行,并能够举行自我纠错。
在基准测试中,Opus 4.6在智能体编程评估Terminal-Bench 2.0中获得最高分,于综合性多学科推理测试Humanity’s Last Exam中也坐稳了第一名的宝座。
针对金融、执法等经济价值领域的GDPval-AA评估中,Opus 4.6也是第一,并较第二名的GPT-5.2拉开约144个Elo分差,较前代版本Claude Opus 4.5提升了190分。
就在Opus 4.6宣布后几分钟,OpenAI把GPT-5.3-Codex也搬了出来“正面硬刚”。阻止北京时间2月6日11点,X平台上有关“Claude VS Codex”的话题下已有4.1万条讨论。
Varick Agent的CEO“vas”发帖称:“Claude 4.6 Opus仅用一次挪用就重构了我的整个代码库。25次工具挪用,新增3000多行代码,建设了12个全新文件。它?榛怂心谌,拆解了单体架构,理顺了杂乱的逻辑。效果没一个能运行,但重构后的代码,着实是美得惊人。”
有网友展示出他用Opus 4.6一次性做出的k线成交量漫衍表。谈论区纷纷叹息:这要是真的,那一切都竣事了。
在话题讨论中,有不少网友都自觉测评了Opus 4.6与GPT-5.3 Codex这两款模子,还晒出了测试Agent在重大现实天下使命中的体现的Terminal-Bench,效果显示GPT-5.3 Codex比Opus 4.6领先了11.9%。
在网友的测评中,在编程方面GPT-5.3 Codex获得的好评似乎更多。有网友发出比照:“Opus 4.6有100万上下文+企业/知识事情+发明500个零日误差+Claude代码中的Agent集群-基准测试效果不如Codex 5.3;而gpt-5.3-codex有代码基准测试胜出+速率更快+使命中转向,但上下文窗口不到Opus的一半。”
尚有网友放出了更直观的性能比照图:
价钱上,在200K上下文以内(包括200K),Opus 4.6输入每百万token的价钱为5美元(约合人民币34.69元),输出每百万token的价钱为25美元(约合人民币173.45元);凌驾200K上下文,Opus 4.6输入每百万token的价钱为10美元(约合人民币69.38元),输出每百万token的价钱为37.5美元(约合人民币260.18元)。
别的,Anthropic还将向Pro与Max用户限时赠予价值50美元(约合人民币346.9元)的特殊使用额度,不适用于Team版、企业版及API/控制台用户。
使用特殊额度的用户需同时知足以下两个条件:
1、已于2026年2月4日(太平洋时间)晚11:59前开通Pro或Max订阅;
2、在2026年2月16日(太平洋时间)晚11:59前启用特殊用量功效。
Claude Opus 4.6克日起在claude.ai官网、API接口及所有主流云平台同步上线?⒄呖赏ü鼵laude API挪用claude-opus-4-6模子。
一、“大海捞针”测试得分76%,缓解“上下文衰减”问题
在多语言编程测试SWE-bench Multilingual中,Opus 4.6的效果较Opus 4.5提升1.6分;在网络清静误差复现测试CyberGym中,Opus 4.6获得66.6分,较Opus 4.5提升15.6分,是Sonnet 4.5分数的两倍多。
Opus 4.6在长文本连贯性测试Vending-Bench 2中以 8017.59 的分数大幅领先,在盘算生物学BioPipelineBench测试中也以53.1分的效果位居第一。
Opus 4.6在从海量文档中检索相关信息方面能力较上一代有所提升。这一优势延伸至长上下文使命,它能在处置惩罚数十万token时更稳固地坚持和追踪信息,镌汰信息漂移,并能捕获到可能遗漏的深层细节。
Anthropic团队在博客中称,用户常诉苦AI模子保存“上下文衰减”问题——即对话凌驾一定token数目后性能会下降。
对此,研究团队对Opus 4.6举行了MRCR v2的“8针-100万”变体测试,这是类似于一种在众多文本中检索隐藏信息的“大海捞针”式基准测试。在这个测试中Opus 4.6得分达76%,而Sonnet 4.5仅得18.5%。
Opus 4.6的综合基准测试如下图所示。总而言之,Opus 4.6在长上下文中查找信息更精准,吸收信息后的推理能力更强。
二、行为失范率极低,新增六类网络清静探测工具
智能水平的奔腾并未以牺牲清静性为价钱。在Anthropic的自动化行为审计中,Opus 4.6的行为失范率极低,行为失范包括诱骗、奉承、助长用户妄想以及配合滥用等情形。
其清静对齐水平与前代旗舰模子,即迄今为止对齐度最高的Claude Opus 4.5坚持一律水准。
值得注重的是,Opus 4.6在所有近期Claude模子中展现出最低的太过拒绝率,即模子未能回应良性盘问的情形。
在博客中,Anthropic团队透露,针对Opus 4.6,他们开展了迄今最周全的清静评估系统,首次应用多项全新测试要领并对既有评估计划举行升级。Anthropic团队新增了用户福祉评估、更重大的危险请求拒答能力测试,并更新了模子隐藏执行有害行为的评估标准。
同时,其运用可诠释性科学的新要领举行实验,最先探讨模子特定行为背后的成因,以期发明标准测试可能遗漏的问题。
针对Opus 4.6在特定领域可能被危险使用的突出能力,研究团队同步安排了新的防护机制。尤其鉴于该模子显著增强的网络清静能力,他们开发了6种新型网络清静探测工具以资助追踪差别形式的潜在滥用行为。
同时,Anthropic也在加速推进Opus 4.6在网络防御领域的应用,通过其协助发明并修复开源软件误差。
他们以为网络防御者使用Claude这类AI模子来平衡攻防态势至关主要。网络清静领域生长迅速,Anthropic将凭证对潜在威胁的认知一连调解和更新防护步伐,近期其可能启动实时干预机制以阻断滥用行为。
三、API新增自顺应思索功效,Claude Code现可多智能体并行
通过API接口,开发者们还可以获取到更细腻的模子算力控制计划,并为恒久运行的智能体使命带来更高无邪性。详细新增以下功效:
1、自顺应思索:此前开发者仅能在启用或禁用深度思索模式间二选一。现在通过自顺应思索功效,Claude可自主判断何时需要深度推理。在默认算力品级(高)下,模子会在须要时启动深度思索,开发者也可通过调解算力品级来改变其触发频率。
2、算力调控:现提供四个可调理的算力品级:低、中、高(默认)、极致。
3、上下文压缩(测试版):长程对话与智能体使命常触及上下文窗口限制。当对话靠近可设置阈值时,上下文压缩功效将自动总结并替换早期对话内容,使Claude能够执行更长使命而不受限制。
4、100万token上下文(测试版):当提醒内容凌驾20万token时,将适用高级定价。
5、128k输出token:Opus 4.6支持最高128k token的输出长度,使Claude能完整处置惩罚需要大规模输出的使命,无需拆分为多次请求。
6、美国境内推理:关于需要在美国境内运行的事情负载,可选择美国专属推理效劳,定价为标准token用度的1.1倍。
在Claude与Claude Code平台,Anthropic新增了多项功效:
Claude Code中新增智能体团队的研究预览功效。现在用户可以启动多个并行事情的智能体,它们将自主协同配合,特殊适用于代码库审查这类可拆分为自力、重读取的子使命。
在与常用办公工具的协作体验方面,Claude Excel集成版现在能够处置惩罚长时程与高难度使命,支持先妄想后执行、自主剖析非结构化数据并推断准确名堂,还能单次完成多办法修改。
Excel集成版还能搭配PowerPoint集成版使用,用户可先在Excel中处置惩罚并结构化数据,再通过PowerPoint实现可视化泛起。
PowerPoint集乐成能现已面向Max、Team及企业版用户开放研究预览。
四、松手两千次会话,Opus 4.6率智能体团队“炼”出十万行C编译器
Anthropic官方还给出了一个开发者使用并行Claude智能体团队构建C语言编译器的案例。在这个案例中,开发者指派Opus 4.6率领智能体团队构建一个C语言编译器,随后便基本松手任其运行,仅用两周,就完成了一个小团队一个月的事情。
(视频)
在为期两周、近2000次Claude Code会话中,Opus 4.6消耗了20亿个输入token并天生1.4亿个输出token,总本钱略低于2万美元(约合人民币13.88万元),这个本钱仅相当于开发者小我私家自力完成所需投入的零头。
最终Opus 4.6做出了一个有着10万行代码规模的编译器,并且是净室实现,即开发全程Claude无网络会见权限,仅依赖Rust标准库。
这个编译器能在x86、ARM和RISC-V架构上构建可启动的Linux 6.9内核,还能编译QEMU、FFmpeg、SQLite、PostgreSQL、Redis等大型项目。
该编译器在包括GCC torture测试套件在内的大大都编译器测试中抵达99%通过率,甚至通过了编译器、操作系统等底层手艺的 “最终测试”:乐成编译并运行第一人称射击游戏《Doom》。
经由多轮实践,开发者总结出了协调多个Claude高效协作的四大焦点要领:
1、刷新测试框架:
在项目后期,Claude每次实现新功效时都会频仍破损现有功效。为此开发者构建了一连集成流水线,实验更严酷的检查机制,让Claude能更好地测试自身事情,确保新提交不会破损现有代码。
2、站在Claude的视角设计适配情形:
每个智能体都启动于无上下文的新容器中,会破费大宗时间自我定位,尤其在大型项目中。甚至在运行测试前,为资助Claude自助,开发者需要在说明中要求维护详细的README文档和进度文件,并需频仍更新目今状态。
3、简化并行机制:
当保存多个自力失败的测试时,并行化万无一失,但当智能体最先编译Linux内核时却陷入逆境。与包括数百个自力测试的套件差别,编译Linux内核是单项巨型使命,所有智能体都会遇到相同的bug,修复后却相互笼罩修改,运行16个智能体也不可,由于它们都卡在解决统一问题上。
为此,开发者编写了新测试框架,将GCC作为在线验证编译器举行比对。这让每个智能体都能并行事情,在差别文件中修复差别bug,直至Claude的编译器最终能编译所有文件。
4、多元智能体角色分工:
LLM编写的代码常重复实现现有功效,因此开发者指派了一个智能体专门合并发明的重复代码。另一个认真优化编译器自己的性能,第三个则专攻输出高效的编译代码,还让一个智能体以Rust开发者视角批判项目设计并举行结构性刷新,另设智能体专注文档事情。
开发者称,该效果已经迫近Opus的能力界线,但仍有需要提升的方面:
1、16位x86编译器缺失:缺乏从实模式启动Linux必需的16位x86编译器,该环节需挪用GCC(x86_32和x86_64编译器为自主实现);
2、汇编器与链接器不完善:这两部分是Claude最后最先自动化的?,现在仍保存较多缺陷。演示视频中使用的是GCC汇编器与链接器;
3、兼容性未达全替换标准:虽能乐成构建众多项目,但尚不可完全替换真实编译器;
4、代码天生效率偏低:纵然启用所有优化选项,其输出代码效率仍低于禁用优化的GCC;
5、Rust代码质量有限:代码质量尚可,但远未抵达专业Rust程序员的水准。
结语:Anthropic在清静性上下了狠功夫
Opus 4.6在长上下文明确、重大推理与智能体协作等方面的性能提升,为企业级高密度、长周期使命提供了新的解决计划。
同时,在Anthropic的博客中,他们用了很大篇幅来写新模子的清静性。Anthropic通过增强清静评估系统与安排自动防护机制,展现出对AI危害治理的前置性投入。
《80岁老岳一晚三次》,《Q8X2R7L1T4J5M9B6W3》所有的黄色网站在线观看
“欧美理论在线全部免费观看”
伊人成人电影
……
02月08日
“www操”李娟回应与董宇辉访谈“不同频”
↓↓↓
02月08日,(巴黎奥运)中国代表团最小运动员郑好好亮相滑板女子碗池赛,日韩精品一区二区三区福利视频,国产真实乱人伦视频,国产最新精品视频,小孩吃大雷
02月08日,一习话丨“迎接共建‘一带一路’更高质量、更高水平的新发展”,欧洲特级特黄AAAAA毛片,老熟女老肥女色惜视频免费观看,xfplay影音先锋av资源,欧美99999999
02月08日,陈行水库挖潜工程开工 提升抵御咸潮保障供水能力,欧美国产日韩视频,午夜精品久久久999,欧美怡红院视频一区二区三区,uiui网页版入口网址
02月08日|铸牢中华民族共同体意识的生动诠释——塔克拉玛干沙漠锁边合龙启示(四)|C喷了|αV在钱免费视频|无卡无码无免费播放毛片|18禁止观看强奸免费国产大片
02月08日|新疆阿克苏地区乌什县发生7.1级地震 周边多地震感强烈|美女打开子宫给人随便看网站含羞在线看完整|大鸡巴性色视频|疯狂 自慰爽www看片挤奶|欧美性爱6
02月08日|广东茂名游子归故里 “籺”是最难忘|操操操综合|欧美视频在线看|456影视亚洲人成欧美|手机看毛片网站……
02月08日,新疆巴音郭楞州尉犁县发生3.0级地震 震源深度10千米,东北粗壮熟女高潮,黄色视频又湿又黄,亚洲の无码热の综合,午夜三级黄片
02月08日,粤桂两地打通名特优农产品产销对接“任督二脉” 推动“桂品入湾”,熟妇张霞性囗交,免费恋脚足恋网站,中文字幕在线WWWXX,狂搓奶一小时
02月08日|关注红海局势:美军称扣押一艘向胡塞武装提供武器的船只|人人操人人亲在线|别告诉妈妈在线观看免费播放电视剧|国产精品视频一区二区三区无码乱伦|人人干人人草人人操
02月08日,水花消失术如何练成?跳水“梦之队”的“武功秘籍”来了,亚洲欧洲中文日韩久久AV,迷奸国产激情网,亚洲淫淫网,克劳德3dmax入口
02月08日,伊利“双足迹”全链减碳亮相COP29中国角,黄色性插上视频,性爱国产高清视频网址,污网站永久免费观看,桃色国产
02月08日,江苏连云港扩大东西双向开放 全力建设“一带一路”强支点,动态图性,亚洲三级片大全,一级影视在线,作爱视频在线播放
02月08日|礼来替尔泊肽实现平均减重20.2% 头对头研究显示优于司美格鲁肽的13.7%|日的好深好爽好爱|男人看片网址|啪啪视频1000部十八勿入|国产精品资源在线免费
02月08日|当足球内胆植入芯片(体育科技范儿)|爆乳中文字幕第一页|一级a一级a爱片免免|精品国产v无码免费看|美女打开双腿扒开尿口免费视频
02月08日|江苏特种设备焊接技能高手在扬州同台竞技|日韩性交免费A级黄片|虎杖和钉崎maplestar在哪看|啊好爽软件下载|亚洲毛片无码专区亚洲乱
杨笠登上经济学人专题报道,元首外交战略引领新典范|山西今年将新建150座智能煤矿|老熟妇仑乱视频一区二区|夜|西施的婬奴生活1~15|按摩师让少妇高潮喷水
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
一天拦下40万笔!频繁“仅退款”,会“触法”吗?
提升主流新闻舆论对青年思想引导力
强降雨致粤多地内涝 珠江流域北江沿江树木道路被淹
以数字技术赋能文化体制机制改革
报告称近七成港青愿到大湾区内地城市发展
西湖遇见敦煌 94岁“敦煌少女”常沙娜新书杭州首发
国内首个5G-A通感一体低空飞行应用落户广东清远
登山还能坐自动扶梯?福建冠豸山体验一站式登顶
中国财政部官员谈专项债:全年发行规模仍然符合预期
《好东西》的轻盈感来自哪里
特级AAAAAAA毛片在线视频
女宝被狂c躁到高潮视频
2019亚洲天堂在线观看
国产videos hd
东营监控摄像机厂家用小兔营销导航
日韩网站在线观看
爱爱高清日韩欧美
毛片免费看不卡网站
欧美激情欧美狂野
黄色网站最新域名

闽公网安备 35010302000113号