Qwen开源世界模型:Agent不用再拿真实环境当试错场

在这里插入图片描述

Agent 的瓶颈不在"能做什么",而在"做之前能不能想清楚后果"。

大多数 Agent 框架的逻辑是:收到指令→调用工具→执行动作→看结果→再调整。每一步都在真实环境里试错,错了就重来,成本跟着堆。能不能让 Agent 先在脑子里跑一遍,确认大概率能成功再去执行?

阿里通义千问团队昨天开源的 Qwen-AgentWorld,给的就是这个能力——一个让 Agent "先脑补再动手"的原生语言世界模型。

世界模型不是新概念,但这次做得不一样

"世界模型"在 AI 研究里不算陌生词。此前的工作大多是把一个通用大模型拿过来,事后加一层环境适配——模型本身擅长生成文本,但对"我在某个环境里做了某个动作之后会发生什么"这件事并不内行。

Qwen-AgentWorld 换了路径。从继续预训练(CPT)阶段开始,环境建模就是训练目标本身,不是外挂补丁。整个训练贯穿 CPT → SFT → RL 三个阶段,相当于让模型从底层就长出一个"能预测环境反馈"的能力,而不是先学会说话、再硬塞一个"理解环境"的模块。

打个比方:以前的做法像请一个翻译去当导游,语言没问题但对景点不熟;现在的做法是从一开始就按导游标准培养,语言和场景知识同步内化。

七大领域,一个动作空间

Qwen-AgentWorld 用一个模型同时覆盖七个 Agent 交互领域:

  • 文本类:MCP(工具调用协议)、Search(搜索交互)、Terminal(命令行操作)、SWE(软件工程任务)
  • GUI 类:Web(浏览器操作)、OS(桌面系统交互)、Android(移动端操作)

七个领域共享同一个动作空间。意思是,不管 Agent 在终端里敲命令还是在浏览器里点按钮,底层表述方式是一致的。这带来的好处是跨领域迁移——比如 Agent 在网页浏览中学到的"先观察再操作"的策略,可以直接迁移到安卓 App 操作中,不用从头训练。

GUI 场景的观测方式也有讲究。不走像素帧的老路,而是把界面状态转成可渲染代码来表示。这样纯文本的世界建模就能覆盖视觉环境,不需要额外训练一个视觉理解模块。

1000 万条真实轨迹打底

训练数据来自超过 1000 万条真实环境的智能体交互轨迹。不是模拟出来的假数据,是从 MCP、搜索、终端、浏览器、操作系统、安卓这些真实交互场景里采集的。

模型提供两个规格:35B-A3B 和 397B-A17B。旗舰版 397B-A17B 在 AgentWorldBench 评测中整体均分 58.71,超过了 GPT-5.4(58.25)和 Claude Opus 4.8,在 Terminal 和 SWE 两个领域优势最明显。小模型 35B 经过三阶段训练后均分也提升了 8.66,超过了 Claude Sonnet 4.6。

同步发布的还有 AgentWorldBench 评测基准,每条测试样本都配了真实环境执行的 ground-truth 观测数据,覆盖七个领域,已开源于 Hugging Face 和 ModelScope。

世界模型给 Agent 带来的两种用法

Qwen-AgentWorld 的价值不只是"模拟环境"这么简单。论文里验证了两种互补范式。

第一种:当环境模拟器用。 Agent 在真实环境里训练成本高、不可控——你不能随便让一个 Agent 在真实服务器上反复试错。世界模型可以规模化地模拟上千个环境,让 Agent 在模拟中做 RL,训练出的策略再迁移到真实环境,效果比纯真实训练还好。可控性也更强——想训练某个特定场景就生成那个场景的数据,不用等真实用户触发。

第二种:当 Agent 底座用。 世界模型的预训练本身就能迁移到多轮 Agent 任务上。论文验证了在七个基准上的迁移效果,其中三个完全不在训练集里——这意味着 LWM 的预训练不只是学会模拟环境,还学到了"怎么当一个更好的 Agent"的通用能力。不需要额外做 RL 微调就能直接用。


Agent 开发的实际问题

做 Agent 产品的开发者,实际面对的不止是"用什么模型"的选择题。

Qwen 系列现在覆盖面很广:Qwen3 做通用推理、Qwen-AgentWorld 做环境模拟、Qwen2.5-VL 做多模态理解。不同任务需要的模型不一样,但每家的接口格式、调用方式、计费单位各有差异。做 Agent 的团队很可能需要同时调用多个 Qwen 子模型——推理用 Qwen3,环境模拟用 AgentWorld,视觉理解用 VL——一个任务链里切两三个模型是常态。

一个Key调用多个大模型这个思路在 Agent 场景下尤其合理。通过大模型API统一接入,推理、模拟、理解三个环节用一个入口串起来,切换不用改接口格式,计费也不用分别管理。Agent 的任务链本身就是多模型协作,接入层不该是瓶颈。

市面上已经有这样的方案。ExtraToken 把 Qwen 全系——包括 Qwen3、Qwen-AgentWorld、Qwen2.5-VL——聚合在同一入口,按需切换,多模型API统一接入,计费透明。Agent 开发者不用每接一个新模型就重写对接逻辑,省下来的精力专注调任务链本身。


一点判断

世界模型给 Agent 加了一层"预测能力",让试错从真实环境搬到了模拟空间。这对 Agent 开发者来说意味着更低的训练成本和更高的可控性。Qwen-AgentWorld 把这件事做进了语言模型本身,不是事后补丁而是原生能力,这个方向大概率是通用 Agent 竞赛的下一个关键变量。

至于怎么把 Qwen 的推理、模拟、理解能力串起来高效跑通——那是开发者接下来的实操功课。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值