河南实里AV中文在线观看,无论你在哪,都能随时体验高速与便捷的服务

首页 >新闻 >社会新闻

Agent2World来了，把天下模子做成可运行的符号情形

2026-02-03 16:52:10

泉源：

猫眼影戏

作者：

蒋孝勇

手机审查

　　猫眼影戏记者吴樾报道Q8X2R7L1T4J5M9B6W3

让模子真正 “能行动”，往往需要一个可执行、可验证的符号天下模子（Symbolic World Model）：它不是笼统的文字形貌，而是能被妄想器或执行器直接挪用的形式化界说 —— 例如 PDDL 领域 / 问题，或可运行的情形代码 / 模拟器。一旦天下被 “写成可运行的规则”，我们就能在统一套约束下举行推演、测试与复现：模子不再停留在 “会说”，而是能回覆 “若是我这样做，会爆发什么”，并用执行效果磨练自己是否真的明确了这个天下。

问题在于，现有自动天生蹊径普遍陷入三重困局：剧本式事情流、知识界线关闭、体现笼罩简单。许多要领仍沿用牢靠的 “天生 — 修复” 剧本，并以剖析 / 规则匹配 / 牢靠检查集等静态校验为主：它们或许能修语法与名堂，却经常抓不住只有在交互执行中才袒露的行为级过失（例如状态更新纷歧致、目的不可达、奖励机制失效）。与此同时，当使命规格迷糊、缺失要害规则或配景知识时，系统缺少自动检索与补全机制，只能依赖模子影象 “猜”。更要害的是，既有研究往往只笼罩一种天下模子体现（只做 PDDL，或只做可执行代码），导致统一使命难以在差别符号表达之间共享验证闭环与刷新履历，限制了要领的通用性与可扩展性。

为攻克这一难题，研究团队提出 Agent2World：一个工具增强（tool-augmented）的多智能体框架，用 “知识合成（Knowledge Synthesis）→ 天下模子实现（World Model Generation）→ 评估驱动精炼（Evaluation-Driven Refinement）” 的三阶段闭环，把 “查资料补规格 + 写实现 + 交互测试纠错” 内化为可复用的天生范式，从而稳固产出高可执行、可验证的符号天下模子。

实验效果显示，Agent2World 在 Text2World (PDDL)、CWMB (MuJoCo) 和 ByteSized32 (文本游戏) 三大基准上均实现了 SOTA 性能。更要害的是，该框架展现了可一连刷新潜力：基于 Agent2World 天生的高质量轨迹举行微调（SFT）后，模子性能显著跃升 —— 与训练前的统一模子相比，平均相对性能提升了 30.95%，有力证实晰其作为高质量天下模子数据合成引擎的工程与研究价值。

论文地点： https://arxiv.org/abs/2512.22336项目地点： https://agent2world.github.io/模子地点： https://huggingface.co/agent2world/llama3.1_8b_instruct_full_sft_v1_3_epoch代码地点： https://github.com/DeepExperience/agent2world

一、深层归因：为何古板 “剧本式” 天生难以为继？

在 Agent2World 之前，自动天生天下模子的主流计划常接纳牢靠的 “底稿 — 修复（Draft-Repair）” 剧本：天生代码 → 跑错 → 看报错改代码。它能修语法，但很难包管 "跑起来" 的天下是对的。

被动剧本的死循环：缺乏前瞻性妄想，重大使命里常陷入 “改一个 bug 引出新 bug” 的低效迭代。规格缺口带来的幻觉：形貌不完整时，模子往往只能靠影象 "猜" 规则界线、接口细节与隐含条件，导致看似能跑、实则不自洽。体现笼罩简单的 "符号孤岛"：既有研究往往只笼罩一种天下模子体现 —— 要么偏向 PDDL 的形式化妄想，要么偏向可执行情形代码。两条蹊径各自为战，天生、验证与修复履历难以跨体现共享与迁徙，统一问题在差别符号表达下往往需要重做一套流程，最终限制了要领的通用性与可扩展性。

归根结底，难点不但是 “写出代码”，而是要在真实约束下稳固产出可执行、可复现、可迭代的天下模子；而 “剧本式流程 + 简单体现笼罩” 的组合，正是阻碍这一目的的焦点瓶颈之一。

二、要领拆解：把 "软件开发团队" 装进模子里

Agent2World 的焦点不是 "多拉几个 agent 谈天"，而是把天下模子天生拆成软件工程式三阶段：Researcher 补规格、Developer 做实现、Testing Team 用单测 + 仿真交互做行为级验收，并把验收反响反哺修复。

1. Deep Researcher：自动突破知识壁垒

现实使命往往信息不完整：目的相对清晰，但规则界线、参数规模、行动约束与接口细节并不完整，在不确定性与知识缺口的叠加下，极易导致事实性过失与幻觉。Deep Researcher 首先将使命形貌剖析并拆成一组待澄清问题（例如：允许的行动荟萃、状态变量界说、终止条件、异常情形与界线输入等），它配备了网络搜索和检索工具，能够迭代地从互联网检索构建天下模子所需的知识，并最终输出一个结构化的中心体现，其中缺失的信息已获得增补。

2. Model Developer：统一跨模态表达

在获得补全后的规格后，Model Developer 认真天生目的天下模子（例如 PDDL 域 / 问题，或可执行的情形代码）。这一阶段不以 “写得像” 为目的，而以 “能执行、接口连通、与规格一致” 为硬约束。

因此 Developer 会在受控沙盒中举行基础运行检查与增量修复：一方面包管文件组织、函数署名、依赖与挪用链准确；另一方面确保状态转移、行动前置条件与效果、终止判断等焦点逻辑与规格对齐。该阶段的输出是一个可以被执行器 / 妄想器直接挪用的情形实例。

3. Testing Team：双重防地杜绝幻觉

这是框架中的要害组成部分。差别于以往依赖静态验证器的要领，Testing Team 引入了动态的、行为级的双重验证机制，专门捕获只有在交互中才会袒露的逻辑过失。

Unit Tester：它自动剖析代码结构，天生 Pytest 气概的单位测试用例。重点验证接口左券（Contract）、谓词逻辑和稳固式（Invariants）。例如，检查 step () 函数返回的状态维度是否与界说一致，或 PDDL 中的行动前置条件是否完整。Simulation Tester：这是一个基于 ReAct 框架的智能体，以交互方法在情形中收罗轨迹并诊断深层的问题，如动力学过失 —— 例如 “机械人执行了移动行动但坐标未更新”、“奖励函数在抵达目的后未准确触发” 或 “状态转移违反物理知识”。

一旦发明问题，Testing Team 会输出包括过失剖析（Analysis）和修复建议（Suggest Fix）的结构化报告，驱动 Developer 举行针对性修复，直到通过所有测试或抵达收敛条件。

进阶：从推理到训练，构建 "自进化" 的数据飞轮

Agent2World 的价值远不止于一个推理框架，它实质上是一个全自动的高质量数据合成引擎。研究团队通过 “使命合成 — 轨迹筛选 — 履历蒸馏” 的严密流程，将多智能体协作中的有用修复战略蒸馏为单体模子的天生与修复偏好。

数据合成：验证器指导的拒绝采样，为了阻止数据泄露并提升泛化性，团队并未直接使用测试集问题，而是自主合成（Self-Synthesized）了大宗涵盖差别领域的全新使命。在此基础上，系统使用 “验证器指导的拒绝采样（Verifier-Guided Rejection Sampling）” 机制，从海量天生效果中筛选出 1526 条既通过沙盒运行、又通过双重测试校验的轨迹。这套数据集完整纪录了 Developer 从过失代码到修复乐成的高密度轨迹，为模子提供了极高价值的逻辑纠错样本。监视微调：在训练阶段，团队精准提取 Model Developer 的交互轨迹对 Llama-3.1-8B-Instruct 举行监视微调。训练的焦点目的并非让模子纯粹模拟多智能体对话，而是让其学习 Developer “怎样明确模糊规格” 以及 “怎样凭证 Testing Team 的报错修复代码”。通过这种方法，单体模子乐成 “继续” 了多智能系一切中 “凭证反响迭代（Iterative Refinement）” 的能力。

三、实验验证：横扫三大基准，验证 "数据飞轮" 效应

Agent2World 在 Text2World（PDDL）/ CWMB（MuJoCo 可执行模拟器）/ ByteSized32（文本游戏情形）三大基准上都拿到领先体现。

1. Text2World (PDDL)：

从 “能跑” 到 “懂逻辑” 的显著提升。以 GPT-4.1-mini 为底座，在权衡 PDDL 代码天生的基准中，Agent2World Multi 显着降低了代码 “跑欠亨” 的失败率，实现了 93.1% 的代码可执行率（Executability），相比强基线 Text2World ($EC=3$) 提升了 14.9 个百分点。更主要的是，它在权衡语义准确性的 Component-wise F1 指标上抵达了 75.4（基线仅为 60.1），提升幅度达 15.3 分。这批注模子不再只是机械地模拟 PDDL 语法，而是越创造确了谓词约束与逻辑门控，天生了既切合语法又具备可解性的高质量妄想域。

2. CWMB (MuJoCo)

不但展望得准，更要 “好用” 。CWMB 同时评估 “仿真代码是否能展望动力学”（Accuracy）与 “作为天下模子能否支持下游妄想 / 控制”（Overall Normalized Return, R）。在 GPT-4o-mini 上，Agent2World Multi 的 Overall R 抵达 0.4811，相比此前最强基线 GIF-MCTS 的 0.3488 提升了 +0.132；并且在离散行动空间的展望准确率上与强基线持平（0.917 vs 0.914）。这说明，性能的提升并非来自纯粹的下一帧展望相似度，而是源于模子实现了 “可用于妄想的行为级一致性”，真正支持起了下游控制使命。

3. ByteSized32 (Text Games)

知识推理与物理现实的高度一致性。在极端依赖知识推理的文本游戏中，Deep Researcher 的自动知识检索施展了很大的作用。Agent2World Multi 在焦点指标 “物理现实对齐度（Physical Reality Alignment）” 上取得了 0.4768 的高分，相比单智能体版本（Single Agent）大幅提升了 0.2848 。别的，在手艺有用性（Technical Validity）上，模子天生的游戏代码初始化乐成率靠近 99% 。这些数据批注，通过引入外部知识与多轮测试，模子乐成消除了大宗违反知识的 “物理幻觉”（如过失的状态转移或不对逻辑的物品交互），天生了逻辑严密且更稳固的文本情形。

4. 模子微调实验

基于自主合成的高质量轨迹数据（训练仅使用 Model Developer 轨迹），团队对 Llama-3.1-8b-instruct 举行了监视微调。实验批注，这种 “以 Agent 养 Model” 的战略带来了显著的泛化能力提升：微调后的模子在未见过的测试使命（Unseen Tasks）上，平均相对性能提升了 30.95%。特殊是在 Text2World 使命中，模子天生的代码可执行率（Executability）提升高达 16.9%。这有力证实晰，无需依赖腾贵的超大模子，仅凭小参数模子配合优质的 “自我修正” 合成数据，也能实现向高性能天下模子构建者的跨越。

5. 消融实验

缺一不可的双引擎（基于 CWMB 验证）为了探讨 Agent2World 卓越性能的泉源，团队在 CWMB（物理控制）使命上举行了严苛的组件消融实验。效果证实，Deep Researcher 与 Testing Team 均是构建高可靠天下模子不可或缺的组件：

移除 Deep Researcher（知识引擎缺失）：模子天生的模拟器在整体归一化回报（Overall Normalized Return, R）上泛起显著下滑。这批注，在缺乏对物理参数与 API 规范的自动检索时，模子界说的情形规则会泛起 “失真”，导致下游 Agent 无法在模拟中学习到在真真相形中有用的战略。但当移除unit tester后，在离散行动空间的展望准确率显著下降约 30%。移除simulation tester，也会同比下降约3%。这展现了一个要害发明：“能运行” 不即是 “物理准确”。没有动态交互爆发的行为级反响，模子很难在该设置下修正深层的动力学过失（如重力模拟误差），天生的模拟器也因此失去了适用价值。

四、结语：开启 AI 自主明确情形的新可能

Agent2World 的提出，标记着统一多智能体框架在符号天下模子天生领域的乐成应用。它不但突破了 PDDL 妄想与可执行代码之间的表征壁垒，更通过 "网络知识合成 - 迭代式模子开发 - 评估驱动仿真测试" 的细密闭环，在无需人工标注与人工验收的条件下，实现自动化的天生 — 测试 — 修复闭环，从而稳固产出可执行、可复现、可迭代的符号天下模子。这一突破不但在三大基准测试中一致性地刷新了 SOTA，更为未来 AI 系统从自然语言中可靠地明确并形式化重大的现真相形，开发了全新的可能性。

??时势1：乱伦图片欧美色图

??02月03日,印尼中爪哇省一娱乐场所火灾已致6人死亡,

　　一经叱咤风云的一代强者，终是抵不住岁月，到了晚年境况很凄凉。

,女学生喷浆软件苹果。

??02月03日,外籍人士在北京乐享便捷优质中医药服务,

　　它双翅一展，狂风咆哮，许多射过来的重箭与铁矛都被崩飞了，当看成响，火星乱冲，此后它仰面长鸣，眼中凶光大盛，振翅而飞，向着众人扑杀了已往。

,秋菊电影院,欧美黑人肝交,羞羞视频免费无会员网站喷水。

??时势2：青色大脑1.0.4.5安装包

??02月03日,惊艳亮相！千年古城印记赓续历史文脉彰显华夏文明力量,

　　“族长爷爷说，对恶人过于宽容就是在纵然他们继续为祸，会有更多的人死去。”小不点轻语，他抬起了手腕。

,Z〇ZOZ○女人Z〇Zo,日本一区自拍偷拍,欧美极度另类性视频。

??02月03日,红海紧张局势对全球经济有何影响？,

　　“欺压你们怎么了，敢对抗的话，连忙血洗你们的村子。”蛟鹏一跃而起，坐在飞蛟的脊背上，俯视着下方，眼神酷寒，盯着小不点。

,国产精品一级黄录像,免费在线黄片免费,黄片AV中国字幕。

??时势3：港台黄片手机不卡视频一区

??02月03日,“网红主播”是员工还是伙伴？,

　　一群人发呆，这是一个何等恐怖的村子啊，怎么感受这么差池劲？众人有点摸不着头脑了。

,1024AV日韩精品在线,特级欧美AAAAAA片一区二区,99re视频这里只有精品精。

??02月03日,天舟七号船箭组合体转运至发射区近日将择机发射,

　　(十三)深入剖析案件情形，做好案情转达。建设和完善案件、案件危害信息合账制度，做好案件、案件危害信息的挂号、汇总和统计剖析事情。认真剖析案发形势，实时总了案发特点，研究案发趋势，提出案防要求，提高案件危害识别、监测、剖析能力，按期开展案情转达。

,国产无码Av毛片A级无码色欲A级Av毛片,操鸡免费小视频,久久伊人网站。

??时势4：色色色com

??02月03日,汉服游览、非遗体验……来打卡安徽“博物馆奇妙夜”,

　　优异的起源是乐成的一半。不管你已往是好是差，我们最体贴的是你现在体现怎样？在我们每个先生眼前你们各人就像摊开了的一张新白纸，那么你们将怎样在这张白纸上画出新的图画？是一幅精彩的画卷！照旧一幅平庸的涂鸦？更有甚者是被作为一张废纸被扔进垃圾筒。已往属于别人，未来属于你自己，你的已往庆幸也好，失败也好，都已成为昨天，留给你的只应该是教训和履历；新的一学期已经最先，你最需要做的就是赶忙给先生、同砚留下一个优美的第一印象。也许你昨天曾拥有绚烂，但那已经成为一段甜蜜的回忆，也许你昨天曾遭受攻击，也早已成为几滴苦涩的泪水，遗忘以前的乐成与失败，新的学期意味着新的起点，只要你肯拼搏，胜利永远属于你！虽然第一印象并不可代表一小我私家的所有，但做到这一点，才算是迈出可喜的一步。我们的同砚还应该勇于离别已往的缺乏，离别自身的弱点，无论你以前怎样，只要你踏扎实实地学，先生喜欢的是一直前进的学生。只要你一直挑战自我，完善自我，我们相信你一定会重塑一个崭新的自己。

,欧美裸体肥婆ABBVRHNWWWBB,97超博视频免费黄色,日本性视频一区。

??02月03日,欧盟同意为乌克兰提供500亿欧元额外援助,

　　不在乎泪水和汗水，

,国产美女裸体无免费永无遮挡图片,好爽好深好紧好大,hentaiMMDcartoon。

【“为国与国之间互利合作树立典范”（高端访谈）】

【【巴黎奥运会】樊振东夺冠家乡教练：“肥仔”饭吃得多练得也多】

责编：高鹏

审核：孙传芳

责编：祁坤峰

k1体育麻将胡了

Agent2World来了 ，把天下模子做成可运行的符号情形

Agent2World来了，把天下模子做成可运行的符号情形