Qwen开源世界模型：Agent不用再拿真实环境当试错场

原创已于 2026-06-25 16:29:27 修改 · 561 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#microsoft

于 2026-06-25 16:21:33 首次发布

在这里插入图片描述

Agent 的瓶颈不在"能做什么"，而在"做之前能不能想清楚后果"。

大多数 Agent 框架的逻辑是：收到指令→调用工具→执行动作→看结果→再调整。每一步都在真实环境里试错，错了就重来，成本跟着堆。能不能让 Agent 先在脑子里跑一遍，确认大概率能成功再去执行？

阿里通义千问团队昨天开源的 Qwen-AgentWorld，给的就是这个能力——一个让 Agent "先脑补再动手"的原生语言世界模型。

世界模型不是新概念，但这次做得不一样

"世界模型"在 AI 研究里不算陌生词。此前的工作大多是把一个通用大模型拿过来，事后加一层环境适配——模型本身擅长生成文本，但对"我在某个环境里做了某个动作之后会发生什么"这件事并不内行。

Qwen-AgentWorld 换了路径。从继续预训练（CPT）阶段开始，环境建模就是训练目标本身，不是外挂补丁。整个训练贯穿 CPT → SFT → RL 三个阶段，相当于让模型从底层就长出一个"能预测环境反馈"的能力，而不是先学会说话、再硬塞一个"理解环境"的模块。

打个比方：以前的做法像请一个翻译去当导游，语言没问题但对景点不熟；现在的做法是从一开始就按导游标准培养，语言和场景知识同步内化。

七大领域，一个动作空间

Qwen-AgentWorld 用一个模型同时覆盖七个 Agent 交互领域：

文本类：MCP（工具调用协议）、Search（搜索交互）、Terminal（命令行操作）、SWE（软件工程任务）
GUI 类：Web（浏览器操作）、OS（桌面系统交互）、Android（移动端操作）

七个领域共享同一个动作空间。意思是，不管 Agent 在终端里敲命令还是在浏览器里点按钮，底层表述方式是一致的。这带来的好处是跨领域迁移——比如 Agent 在网页浏览中学到的"先观察再操作"的策略，可以直接迁移到安卓 App 操作中，不用从头训练。

GUI 场景的观测方式也有讲究。不走像素帧的老路，而是把界面状态转成可渲染代码来表示。这样纯文本的世界建模就能覆盖视觉环境，不需要额外训练一个视觉理解模块。

1000 万条真实轨迹打底

训练数据来自超过 1000 万条真实环境的智能体交互轨迹。不是模拟出来的假数据，是从 MCP、搜索、终端、浏览器、操作系统、安卓这些真实交互场景里采集的。

模型提供两个规格：35B-A3B 和 397B-A17B。旗舰版 397B-A17B 在 AgentWorldBench 评测中整体均分 58.71，超过了 GPT-5.4（58.25）和 Claude Opus 4.8，在 Terminal 和 SWE 两个领域优势最明显。小模型 35B 经过三阶段训练后均分也提升了 8.66，超过了 Claude Sonnet 4.6。

同步发布的还有 AgentWorldBench 评测基准，每条测试样本都配了真实环境执行的 ground-truth 观测数据，覆盖七个领域，已开源于 Hugging Face 和 ModelScope。

世界模型给 Agent 带来的两种用法

Qwen-AgentWorld 的价值不只是"模拟环境"这么简单。论文里验证了两种互补范式。

第一种：当环境模拟器用。 Agent 在真实环境里训练成本高、不可控——你不能随便让一个 Agent 在真实服务器上反复试错。世界模型可以规模化地模拟上千个环境，让 Agent 在模拟中做 RL，训练出的策略再迁移到真实环境，效果比纯真实训练还好。可控性也更强——想训练某个特定场景就生成那个场景的数据，不用等真实用户触发。

第二种：当 Agent 底座用。 世界模型的预训练本身就能迁移到多轮 Agent 任务上。论文验证了在七个基准上的迁移效果，其中三个完全不在训练集里——这意味着 LWM 的预训练不只是学会模拟环境，还学到了"怎么当一个更好的 Agent"的通用能力。不需要额外做 RL 微调就能直接用。

Agent 开发的实际问题

做 Agent 产品的开发者，实际面对的不止是"用什么模型"的选择题。

Qwen 系列现在覆盖面很广：Qwen3 做通用推理、Qwen-AgentWorld 做环境模拟、Qwen2.5-VL 做多模态理解。不同任务需要的模型不一样，但每家的接口格式、调用方式、计费单位各有差异。做 Agent 的团队很可能需要同时调用多个 Qwen 子模型——推理用 Qwen3，环境模拟用 AgentWorld，视觉理解用 VL——一个任务链里切两三个模型是常态。

一个Key调用多个大模型这个思路在 Agent 场景下尤其合理。通过大模型API统一接入，推理、模拟、理解三个环节用一个入口串起来，切换不用改接口格式，计费也不用分别管理。Agent 的任务链本身就是多模型协作，接入层不该是瓶颈。

市面上已经有这样的方案。ExtraToken 把 Qwen 全系——包括 Qwen3、Qwen-AgentWorld、Qwen2.5-VL——聚合在同一入口，按需切换，多模型API统一接入，计费透明。Agent 开发者不用每接一个新模型就重写对接逻辑，省下来的精力专注调任务链本身。