首页
随着大模子在单点推理上日益迫近PhD水平,Agent领域迎来了新的分水岭:短程使命体现惊艳,长程使命却显乏力。为精准评估大模子的多模态明确与重大问题解决能力,红杉中国在两周内一连宣布两篇论文,旨在通过构建更科学的评估基准,预判手艺演进的未来偏向。
xbench正式推出AgentIF-OneDay评测系统,不再纯粹审核模子知道几多知识,而是权衡它解决重大使命的能力。AgentIF-OneDay深入探索了从OneHour到OneDay的能力跨越,展现了主流Agent在事情流执行、隐式推断与迭代编辑中的真实体现。让我们配合见证,Agent 是怎样通过Scaling Context与Scaling Domain,从纯粹的“提问助手”进化为真正创立经济价值的“数字员工”。
Agent能否协助你一天的生涯?
自从红杉中国xbench宣布ScienceQA与DeepSearch以来,这两个评测集已经履历了多次迭代升级。无论是模子自己,照旧围绕模子构建的Agent系统,都已经在这些以分钟级为单位的集中推理使命上能够稳固胜任,从最初的human-average水平,逐渐抵达靠近PhD-level的体现。
随着我们进一步进入Agent能力评测的领域,我们发明Agent完成短时使命与长时使命之间保存重大的能力鸿沟。即便在单点推理和局部使命中已抵达极高水平,一旦使命在突破一样平常人一小时可处置惩罚的重漂后,Agent的整体完成度就会泛起显着下降。
从xbench所坚持的理念出发,更好的评估模子和智能体在现实事情和生涯中的价值。我们希望通过评测系统来视察行业手艺蹊径的演进,展望模子能力的上限,同时也希望给业界增补一个面向utility和economic value的思索视角。我们提出一个新的视角来明确Agent的能力界线:使命重漂后,使命重漂后并不等同于知识点有多深奥或推理难度,而是完成一个使命所需的人类时间投入,并由此对应其潜在的经济与使用价值。
我们以为Agent能力的演进会沿着两条主线睁开:scaling context与scaling domain。这两条轴线配合决议了Agent能够肩负的使命重漂后上限,也是Agent系统从工具走向数字员工的生长偏向。
?Scaling context指的是完成的使命在时间维度上的延展。随着使命重漂后的提升,Agent需要在更长的执行周期中一连维护上下文状态,跟踪中心目的与约束,并在多办法、多工具的交互历程中坚持一致性。从分钟级使命,到一天级、以致一周级的事情量。
?Scaling domain则指Agent在使命类型上扩展带来的重漂后。与高度结构化、domain集中的使命(如coding或数学推理)差别,现实天下中的事情往往横跨多个领域与语境,差别使命在目的表述、隐含约束、工具使用方法与评估标准上差别显著。Agent能力的进一步提升,陪同着对更广的使命漫衍的笼罩能力。
xbench在设计AgentIF评测系统时,会同时沿着context与domain两个偏向推进。一方面,通过逐步拉长使命对应的人类时间标准,从OneHour走向OneDay;另一方面,通过笼罩越发多样的生涯、学习与职业场景,描绘Agent 在真实天下使命漫衍中的整体能力界线。
本次宣布的AgentIF-OneDay是xbench在该评测系列中的一个新事情。我们以人类一天内可完成的使命重漂后作为基准,测试一个Agent是否具备在无需人类介入的情形下,稳固完成整套使命并交付效果的能力。只管笼罩更diverse的domain,包括生涯、学习和职业场景会遇到的多种多样的使命以及多种工具。
怎样结构一天的典范使命?
在对大宗用户真实事情日志举行剖析后,我们发明只管详细使命内容差别重大,但一样平常事情在类型上泛起出高度稳固的模式。大大都通俗人的一天可以凭证使用场景被笼统为三个使命类型——事情流执行、规范参考以及迭代式编辑。
场景一
当你知道该怎么做,但执行太繁琐
用户已知完整流程并明确给出操作办法,Agent只需准确执行。我们称此类使命为事情流执行(Workflow Execution)。
例题
我妄想去NeurIPS 2025,帮我计齐整个好的行程计划。请你先去官网确认NeurIPS 2025聚会的主会场位置(San Diego Convention Center, San Diego)是否准确,然后用另一个可靠泉源交织验证这个信息,确保万无一失。接下来,帮我网络基本信息,好比聚会时间、所在和论文提交阻止日期;挂啡贤暾木刍崛粘淌欠褚丫肌羰腔姑恍,请明确告诉我。最后,从纽约出发给我两套去圣地亚哥的行程计划:一个最自制的Cheap Plan,一个最快的Fast Plan。
当Agent能够在整个流程中坚持一致性、逐步完成办法、并在长上下文中坚持状态,就意味着它具备帮我把事情做完的潜力。这也是大宗用户希望Agent能真正替换重复性劳动的缘故原由——当流程执行能力成熟时,Agent就能自然肩负原本需要人工耐心完成的碎片化使命。
场景二
当你不知道规则,只能给个参考
用户不明确知道完整的事情流或者条件约束,只提供若干案例或参考资料。我们将此界说为规范参考(Latent Instruction Inference)。
例题
我现在用的是iPhone13 Pro Max,AT&T套餐每月20美元预付费。我想换iPhone17 Pro Max;诟郊锏墓夯苹驮擞逃呕,帮我找出总本钱最低的方法。
规范参考是人类最自然的事情方法,人们不会每次都从零写起,而是需要Agent从提供的示例文件中挖掘出潜在的意图,并交付同时知足用户的显示指令与附件的隐式指令;Agent若是具备这种能力,就能真正加入内容生产、报告天生、数据整理等职业型使命,而不是停留在浅层回覆问题的阶段。
场景三
当需求自己是动态的,要边做边看
人类的事情普遍泛起多轮迭代结构,在事情的最先并不知道完整解法、也没有参考示例,需要在与Agent多轮交互中逐渐提出新需求。Agent也必需具备在一直转变的约束下维持上下文一致性并稳固推进使命的能力。这类使命称为迭代式编辑(Iterative Refinement)。
例题
拿着这个SVG平面图(venue_layout.svg)和Excel约束表(venue_constraints.xlsx),更新会场结构以知足所有约束条件,同时坚持设计的可读性和可行走性。
我们在已往3个月凭证这三个类型,制备了AgentIF第一期的题库,总共由104道使命组成,笼罩了事情、生涯(例如游戏攻略、旅游妄想)和学习。其中62道由文件驱动的合成使命用于增补长尾场景,笼罩PDF、PPT、Excel、图像、代码文件在内的15种以上名堂。实质上模拟了真实事情流程中极常见的跨名堂、跨泉源的模式。
每道使命都带有一套细粒度的评判标准,总计767个评分点,分为正向指标(如名堂一致性、结构复现、办法完整)与负向指标(如误删内容、越界天生、过失操作)。评测系统接纳LLM作为裁判(值得一提的是Gemini 3-pro的泛起让rubrics打分的准确性也提升到可用的水平),并连系网页检索、HTML渲染、多模态比对等要领做自动校验。在这套机制下,agent系统的得分不但取决于它最终是否完成使命,还包括流程是否清洁、是否泛起误操作、是否准确剖析附件、是否能在迭代历程中坚持一致性。
主流Agent的评测效果和启发
在AgentIF的测评框架下,我们对现有主流Agent系统举行了系统化测试,也有了一些有趣的发明:
发明一:以Overall的完整使命乐成率为标准,Manus、Genspark与ChatGPT-Agent都集中在0.62–0.65区间,组成当下能力最强的第一梯队。
这意味着和我们想象的有所差别,岂论Agent系统是通过模子原生甚至RL训练出来的模子,照旧基于API的工具链集成或深度的multi-Agent系统,在完成一套真实使命链时,用户侧感受到的能力是较量相近的。
这一征象在一定水平上印证了模子即Agent的判断——在底层模子能力不爆发转变、且不引入test-time scaling的条件下,差别多智能体框架自己难以拉开数目级上的性能差别;W踊嶂鸩郊蒩gentic能力,下游基于api的Agent产品,在能力体现上也会体现出agent rl的能力。
虽然这些agent系统能力很是靠近,但在使命领域上与能力维度保存显着差别。
发明二:从使命领域上,使命领域上从ChatGPT是最优生产力工具,Manus是最佳生涯助手,Genspark是最勤学习同伴。
三个产品具有差别迭代偏向,ChatGPT-Agent重点关注GDPval,聚焦专业事情场景的体验;相对来说Manus与Genspark更着重用户反响。差别的评测体现带来了差别的产品长项与短板。我们以为优异的通用Agent应当兼顾最多样的使命,而不着重一方。
发明三:在能力维度上,GenSpark在隐式指令推断上体现最优,Manus在开放事情流执行最优,Minimax-Agent具有最好的迭代式编辑能力。
能力维度的体现纷歧或泉源于Agent框架的差别。隐式条件推断是现在Agent普遍最薄弱的能力项。一些使命要求Agent从附件中自动识又名堂规则,例如从PPT 模板中抽取页眉页脚结构或引用标注方法,再迁徙到新的内容天生中。我们视察到,即即是整体体现最好的系统,在这类使命中也很难做到完全准确。要么名堂复现准确但笼罩缺乏,要么内容明确到位但无法坚持结构一致。
综合来看,稳固性、文件处置惩罚链路、隐式结构明确能力,以致跨工具的状态治理,都是决议Agent能否真正肩负一天事情量的要害环节。AgentIF-OneDay通过这类使命,展现了目今Agent在真实使用场景中的能力界线和一些常见的失效模式,也资助我们更清晰地看到下一阶段能力演进的偏向。
展望:从oneday、oneweek到一连学习
随着系统能力一直提升,我们预计在2026年Agent将最先挑战one-week的人类事情量。围绕one-week的人类事情量,我们已经最先着手构建OneWeek的评测集。我们以为当一个Agent能够在一周标准的事情量上坚持稳固高质量的产出,它就具备了肩负真实岗位的能力,也能够在组织内最先创立更多现实价值。
与AgentIF-OneDay相比,OneWeekIF面临的挑战并不但是使命变得更长。随着时间跨度增添,评测自己的出题难度也增添许多,rubric的设计会越发严酷。一周标准的使命往往最先泛起出明确的行业语境,无论是金融、医疗照旧执法,这些高价值场景数据的获取本钱也会显著上升。
当使命重漂后生长到这一阶段,依赖静态数据集和离线构建的训练与评测方法,最先显露出难以回避的局限性。也正是在这里,一个偏向变得越来越自然:让 Agent在现实运行历程中具备自动学习的能力——能够在真实或半真真相形中自主网络履历,对自身行为举行评估与修正,并通过恒久交互逐步形成稳固战略。
从更恒久的手艺演进来看,静态训练与静态评测可能都不是未来Agent系统的生长路径。近期关于online learning的讨论越来越多,更多researcher倾向于以为,若是模子只在既有的人类知识漫衍内循环,就无法突破到更高层级的智能,下一步的能力scaling不是训练完成的那一刻,很可能爆发在模子被安排之后,通过一直的real world RL来获取practical的知识,一连学习、一连顺应。
用户数据飞轮带来高可靠Agent的泛起
一个赢得用户信任的Agent助理需要交付可靠效果,在长程使命中,过失累计效应会呈指数级放大。我们将长程使命Agent的生长类比自动驾驶的生长历程,同样是从有限路段走向通用路段,从依赖频仍人工干预走向长时无干预FSD。该历程的实现依赖于大宗用户驾驶数据的积累,用户数据可以最大化拓展场景的富厚度,并给系统带来最好的泛化性。在长时使命的Agents中,我们同样可以推演,有用的数据累计可以带来高可靠Agent系统的泛起,优先转起数据飞轮的公司将率先实现通用Agent的FSD时刻。
开源链接:
Paper Link:
https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf
website:
https://xbench.org/
github:
https://github.com/xbench-ai/AgentIF-OneDay
huggingface:
https://huggingface.co/datasets/xbench/AgentIF-OneDay
点个“爱心”,再走 吧
《欧美丰满做爰XXXⅩVV69》,《Q8X2R7L1T4J5M9B6W3》国产在线观看1
“国产福利无码一区在线导航”
嫦娥被 黄漫扒衣服
……
01月21日
“岳 愉情”一批自媒体因捏造军事谣言被处置
↓↓↓
01月21日,日本横滨突发火灾 火势已蔓延至3栋住宅,日韩又黄又硬又大,国产激情无码毛片,刺激的黄色视频,欧美一区二区视频在线资源
01月21日,北京推出“京彩过年指南” 促消费活动超千项,又硬又粗又长又爽的视频,高h抽插乱伦视频,三级簧片,三级片网址在线观看
01月21日,胡歌访台激发青年创作者灵感,国产亚洲精品AⅤ在线观看,老太婆性爱,日本黄色按摩,九九9九九9视频在线观看
01月21日|中国驻德国大使馆提醒中国公民近期注意德国边境管控措施|PinkLoving最新视频|国产精品拍国产拍拍偷剧情|熟女少妇精品一区二区|可以看免费的av的网址
01月21日|福建华安:土楼姑娘当讲解员为家乡代言|搜一级黄色视频|真人国产一级A片|欧美人妻被干|神木丽戴眼镜辅导学生
01月21日|大熊猫“福宝”正式公开亮相|亚洲AV秘 一区二区羽田爱|日本黄色片子日本的91|肖雅婷1V3视频免费|班花撅起屁股让我捅进去……
01月21日,李书磊率中共代表团访问柬埔寨,欧美熟妇激情,8050午夜A级毛片在线播放,冲田あんずなし杏梨无码,八重神子被 吸乳羞羞本子
01月21日,数说湾区丨四图速览大湾区发展,亚洲欧美另类视频,爱操黄色视频免费看,🌈C7pg娱乐app官网版下载,免费 无码动漫人物
01月21日|全球邮轮业复苏步伐加快|无码视频大全|芋圆呀呀白麻酥酥的最新视频|美国黑女人呵男人交配发清视频|欧美熟妇性爱在线视频
01月21日,为强国建设、民族复兴伟业贡献更大金融力量——习近平总书记在省部级主要领导干部推动金融高质量发展专题研讨班开班式上的重要讲话汇共识、聚力量,成年18禁网站免费进入网站,~看黄色的网站,亚洲A片无码电影,www.黄色免费网站
01月21日,流感高发期来临 这份家庭消毒攻略请收好,javhdsexmama,欧美肥胖老太性交,最新黄色视频在线观看网址,把日出女人白浆免费视频
01月21日,中马建交50周年经贸合作论坛举行,伊利出席分享出海经验,最新毛片在线网址,国产美女在线精品主播区,集芳阁成人h18入口,人人操人人摸人人干人人射
01月21日|国家航天局紧急调配高分卫星助力新疆阿克苏地震应急救援|貂蝉肉浪大屁股泄精求饶|见仍头走秀视频30分钟|seⅹ1级黄色|亚洲午夜精品一级毛片国产
01月21日|山东冠县警方通报网传“9岁男童疑遭故意伤害”案件|欧美性爱网站在线看|人妻三级视频|h肉漫无修一区二区在线|所有黄片免费看
01月21日|全方位多领域“昂首阔步”启新程 中国高质量发展质效稳步提升|欧美激情A片XXXX|人成视频网站|男女三级视频|尺度视频在线观看黄页
塔罗牌,《热辣滚烫》金鸡奖0提名|理解山西丨长城一号公路串起的不止古建文物,还有一种坚持“双十一”宁夏实现网络零售额23.1亿元|欧美一级性交黄色视频|老师在办公室被躁在线观看|潘甜甜七夕悔悟的免费看91完整|欧美内射视频
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
中国2023年银行结售汇呈逆差 外汇市场韧性较强
最高法审管办负责人解读审判质量管理指标体系
法国公开赛国羽收获三金 奥运预演 超越预期
前9个月全国规模以上工业企业利润超5万亿元
海南国际商业航天发射中心谋划推出贯穿火箭发射全流程的科技体验游
朋友圈里少儿才艺人气投票藏猫腻,孩子的梦想为何成了“刷钱游戏”?
商务部外贸司负责人解读《关于拓展跨境电商出口推进海外仓建设的意见》
通州绿地中央城产品正式发布 加速打造北京城市副中心运河商务新地标
中国东方航空C919成功首航上海至重庆航线
粤港澳大湾区“世界级机场群”呼之欲出
谁有黄色网站视频看
julia毛片
女性高级感大片视频
免费看美女被操的网站
国产精品日韩欧美亚洲另类
妓女库妓女网免费看在线
美女粉嫩小奶头视频网站
激情偷乱人伦短视频在线
欧美成人男同视频网站
WWW.4455在线免费

闽公网安备 35010302000113号