过去一年里,智能体强化学习(Agentic RL)进展很快:会浏览网页、会写代码并执行、能调用复杂工具链的系统不断涌现。但随着能力提升,一个更隐蔽、也更致命的限制开始显现——不是算力,也不是数据,而是经验(experience)。
与静态预训练语料不同,强化学习所需的“经验”必须靠交互采集。而真实环境天然慢、贵、不可自适应、覆盖有限。当智能体对经验的需求增长速度超过现实世界能提供的速度时,就会出现所谓的“经验瓶颈(experience bottleneck)”:智能体需要的经验越来越多,但世界能给的越来越少。
要缩小这条鸿沟,必须重构智能体的“经验来源”。一个极具潜力的方向是世界模型(world modeling)——训练一个模型去模拟环境动力学,让智能体能够从“想象的交互”中学习,而不必完全依赖真实回合。在视觉控制领域,世界模型已经证明能让智能体通过“想象”掌握多种任务(如 Dreamer 系列)。
于是问题自然出现:
大语言模型(LLM)能否成为有效的世界模型,用于智能体学习?如果能,它在什么条件下才真正“有用”?
来自南方科技大学、微软亚洲研究院、爱丁堡大学以及 Mind Lab 等研究者的最新研究试图系统性回答这些问题。
以文本环境作为统一实验场
为了在可控条件下研究“LLM 作为世界模型”的能力,研究者选择了文本环境(text-based environments)作为核心试验台。这个抽象保留了智能体交互的关键难点:状态跟踪、动作执行、奖励预测,同时把目标从传统的“下一个 token 预测”转为更贴近交互本质的——下一个状态预测(next-state prediction)。
形式化地,他们将智能体 A与世界模型 W之间的交互建模为多轮语言决策过程:
Agent(智能体):采用 ReAct 风格循环,输出推理轨迹与动作:
其中 (S_i) 是第 (i) 步文本观测,(T_i) 是内部推理轨迹,(A_i) 是动作。
World Model(世界模型):根据历史交互预测下一状态与奖励:
其中是预测的下一状态,为二值奖励(成功或终止)。
交互过程:两者构成迭代闭环:
从而展开为世界模型里的轨迹, 并与真实环境轨迹对比评估逼真度。
在这个框架下,“世界建模”就变成了:在固定交互协议下的多轮 next-state 预测。
研究覆盖了五类代表性环境,兼顾结构化与开放式动力学:
环境 | 领域 | 动力学特征 |
|---|---|---|
ALFWorld | 家务任务 | 结构化、具身 |
SciWorld | 科学实验 | 结构化、因果 |
TextWorld | 交互式小说 | 结构化、叙事 |
WebShop | 网页导航 | 开放式、组合性强 |
StableToolBench | API 工具使用 | 开放式、符号化 |
这些设置共同构成了评估 LLM“文本世界模拟器”能力的综合试验台。
三层评估框架
作者强调:评估“用于智能体学习的世界模型”,不能只看“预测准不准”。因此提出一个三层框架,覆盖从建模质量到下游收益的完整链路:
逼真度与一致性(Fidelity & Consistency):短期与长期是否能维持连贯的隐状态?
可扩展性与鲁棒性(Scalability & Robustness):随数据量、模型规模增长能力如何变化?遇到分布偏移能否泛化?
智能体效用(Agent Utility):高保真世界模型是否能显著提升下游智能体?
相比只关注一步预测准确率的工作,这里把长程一致性明确纳入评估——因为合成数据与基于模型的 RL 都依赖长期 rollout 的可信度。
评估指标
研究从两个核心维度量化世界模型能力:
1)逼真度:一步预测准确率给定真实轨迹前缀,衡量世界模型是否能正确预测下一状态,采用Exact Match(EM):
其中为预测,为真实下一状态与奖励。
2)一致性:长程迁移能力针对多步 rollout,定义Consistency Ratio(CR):
其中Real是智能体在真实环境的成功率,W2R(World-to-Real)指把世界模型生成的动作序列回放到真实环境时的成功率。CR 越接近 1,表示模拟轨迹越“可落地”。
关键发现
1. LLM 天生具备“隐式动力学”,但仅靠提示远远不够
实验显示,预训练 LLM 已经编码了相当多的世界知识。在结构化环境里,Claude、Gemini 这类模型只需少量 in-context 示例,就能显著提升 next-state 预测。例如在 SciWorld 上,Claude 的准确率从 56.8% 提升到 73.1%(仅 3 个示例)。
但在 WebShop 这种开放式环境里,few-shot 很快遇到瓶颈,准确率徘徊在 50% 多,提示工程无法覆盖复杂多变的转移模式。
转折点来自监督微调(SFT):用转移轨迹对开源 7B 模型做动力学对齐训练后,在 ALFWorld 达到 99%+、SciWorld 接近 98%。结论很明确:要高保真世界模型,必须做“动力学对齐”的训练,而不是只靠 prompt。
模型 | 设置 | ALFWorld | SciWorld | TextWorld | WebShop |
|---|---|---|---|---|---|
Claude-sonnet-4.5 | Zero-shot | 64.7 | 56.8 | 17.7 | 58.8 |
Claude-sonnet-4.5 | Few-shot (3) | 77.0 | 73.1 | 49.1 | 56.7 |
Gemini-2.5-flash | Few-shot (3) | 61.9 | 61.2 | 40.4 | 66.1 |
Qwen2.5-7B | SFT | 99.9 | 98.6 | 70.6 | 79.1 |
Llama3.1-8B | SFT | 99.7 | 98.6 | 70.5 | 77.2 |
表 1:不同设定下的 next-state 预测准确率(%)。SFT 的提升显著,甚至超过最强 few-shot 前沿模型。
2. 世界模型能保持长程一致性:结构化环境 CR 可超 0.90
可靠的世界模型不仅要“下一步预测对”,还要在长程 rollout 中保持状态一致性。结果显示:在结构化环境里,微调后的世界模型可达到CR > 0.90,意味着在模拟里跑出来的多步轨迹,多数能在真实环境中复现。
Agent | ALFWorld CR | SciWorld CR | TextWorld CR | WebShop CR |
|---|---|---|---|---|
GPT-4o | 0.99 | 0.90 | 0.98 | 0.56 |
GPT-4.1 | 1.04 | 1.07 | 1.00 | 0.58 |
GPT-5 | 0.95 | 0.89 | 1.00 | 0.61 |
Claude-sonnet-4.5 | 0.93 | 0.88 | 1.00 | 0.82 |
Average | 0.96 | 0.91 | 0.92 | 0.67 |
表 2:在 Qwen2.5-7B 世界模型下,不同智能体在各环境的 CR(W2R/Real)。≥1.0 表示模拟 rollout 迁移到真实环境几乎无损甚至更好。
但开放式环境更难。WebShop 的一致性常在 56–67% 左右,主要因为搜索结果等外部信息高度多样,模型难以稳定“模拟”。有意思的是:当 rollout 过程中用真实观测(例如真实搜索结果)做锚定时,一致性接近 100%。这暗示:部分真实世界 grounding 能显著抑制模拟漂移。
3. 世界模型存在可预测的“规模规律”,但强依赖环境类型
研究发现:世界建模也呈现可预测的 scaling law,但“结构化 vs 开放式”的差异非常大。
数据规模:结构化环境提升快、很快饱和(约 20K 轨迹),符合其低熵动力学特征;开放式环境提升慢且更依赖大数据,比如 WebShop 到 70K 仍有收益,StableToolBench 在 160K 仍未饱和。
模型规模:结构化环境里,1.5B 级模型已能捕获核心动力学;开放式环境则更吃容量,模型越大越稳步增益。
4. 超越“记忆配置”的泛化:在 OOD 房间布局/类型下仍保持表现
世界模型的常见质疑是:会不会只是“背题”?研究在 ALFWorld 做了 OOD 测试:改变房间布局,甚至引入全新房间类型。
结果显示:世界模型在两类 OOD 场景下的成功率仍与真实环境高度一致,说明它更像是在学习可迁移的转移规律,而不是记住训练时的布局。
他们还观察到:跨环境混合训练带来稳定增益。一个在多环境联合训练的世界模型能够同时服务多个环境,在 TextWorld 与 WebShop 上提升尤其明显,可能源于共享的物理/叙事结构。
5. 世界模型能带来真实收益:验证、合成数据、以及更稳的 RL
研究最后落到关键问题:世界模型“好用吗”?他们给出三类直接应用:
(1)执行前验证(Pre-execution verification)在 WebShop 这类“不可逆”场景(例如结算)里,世界模型可作为轻量 verifier:智能体在真正执行前先模拟结果,只有当预测成功时才提交。这个简单策略能提升所有智能体成功率,且对中等规模模型提升最明显。
(2)合成数据生成(Synthetic data generation)真实交互昂贵时,世界模型可生成训练轨迹。结果显示:合成轨迹与真实数据“同场竞技”不落下风;在 SciWorld 上,纯合成数据几乎能追平真实数据,而混合训练(真实+合成)更稳、收益更高。
(3)为 RL 提供“早期经验”(Early experience)一条更系统的路线是:先让智能体通过世界模型接触环境动力学,再进入策略学习。作者提出 WM-SFT → Agent-SFT → RL 的流水线,并引用“Early Experience”工作作为动机。实验表明:在 ALFWorld 与 SciWorld 上,这种“先学世界、再学策略”的方式能稳定 RL 训练并提高最终成功率。
从世界模型到可扩展的智能体学习
作者的核心目标,是让智能体真正具备“从经验中学习”的能力。但现实世界的经验供给天然稀缺:交互慢、成本高、覆盖不全,还常常受限于不可逆后果与安全边界。世界模型的意义,就在于为智能体提供一个可控、可扩展的“经验放大器”——把学习从对真实回合的强依赖,转向对可模拟交互的高效利用,从而穿越经验瓶颈,迈向更大规模的智能体学习。
这项工作的关键观点可以概括为一句话:LLM 不只是序列预测器,它可以被训练成“可学习的交互世界模拟器”。当 LLM 被放到“世界模拟器”的位置上,它带来的不只是数据增强,更重要的是为可扩展的智能体学习提供一套可复用的能力底座:
能力 | 世界模型带来的启用方式 |
|---|---|
推理 | 预测是推理的核心。世界模型为因果推断、反事实思考与规划提供运行载体。 |
适应 | 世界模型可查询、可回放、可重启,成为智能体在真实后果之前的内部试验场。 |
效率 | 以“想象经验”补足真实交互,显著降低昂贵采样的依赖。 |
安全 | 先模拟不可逆动作,把高风险决策转化为低风险探索与验证。 |
当然,这些收益并非免费午餐:它们高度依赖行为覆盖、分布对齐以及环境复杂度。该研究的价值之一,就是在实验层面更清晰地划出了世界建模的适用边界:什么时候世界模型能带来可扩展收益,什么时候仅靠模拟会出现漂移与失灵。
参考文献
[1] Hafner et al., Mastering Diverse Domains through World Models, 2023
[2] Yao et al., ReAct: Synergizing Reasoning and Acting in Language Models, ICLR 2023
[3] Shridhar et al., ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, ICLR 2021
[4] Wang et al., ScienceWorld: Is your Agent Smarter than a 5th Grader?, EMNLP 2022
[5] Côté et al., TextWorld: A Learning Environment for Text-based Games, 2018
[6] Yao et al., WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents, NeurIPS 2022
[7] Guo et al., StableToolBench: A Stable Large-Scale Benchmark for Tool Learning, 2024
[8] Zhang et al., Agent Learning with Early Experience, 2025
作者信息
Yixia Li, Hongru Wang, Jiahao Qiu, Zhenfei Yin, Dongdong Zhang, Cheng Qian, Zeping Li, Pony Ma, Guanhua Chen, Heng Ji, Mengdi Wang
引用
论文:https://arxiv.org/abs/2512.18832
代码:https://github.com/X1AOX1A/Word2World
@misc{li2025wordworldlargelanguage, title={From Word to World: Can Large Language Models be Implicit Text-based World Models?}, author={Yixia Li and Hongru Wang and Jiahao Qiu and Zhenfei Yin and Dongdong Zhang and Cheng Qian and Zeping Li and Pony Ma and Guanhua Chen and Heng Ji and Mengdi Wang}, year={2025}, eprint={2512.18832}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.18832}, }