千问开源首个原生语言世界模型 Qwen-AgentWorld，性能超越 GPT-5.4 等前沿模型

转载于 2026-06-24 17:35:55 发布 · 22 阅读

【导语：千问正式开源发布首个原生语言世界模型 Qwen-AgentWorld，能在七大领域模拟智能体交互环境，还同步发布评测基准，其在评测中表现优异，超越多个前沿模型。】

Qwen-AgentWorld：七大领域全覆盖的语言世界模型

千问宣布正式开源发布 Qwen-AgentWorld，这是首个原生语言世界模型（LWM）。它能够在七大领域中模拟智能体交互环境，包括文本类环境（MCP、Search、Terminal、SWE）与 GUI 类环境（Web、OS、Android），实现跨领域知识迁移。该模型基于超过 1000 万条真实环境交互轨迹，经由 CPT -> SFT -> RL 三阶段训练而成。

世界建模在智能体训练中的双重作用

Qwen-AgentWorld 探讨了世界建模在智能体训练中的作用，并通过两种互补范式加以验证。作为解耦的环境模拟器，它为智能体强化学习提供了更优的可扩展性与可控性，可控的模拟 RL 能够以真实环境无法实现的方式塑造智能体行为，且显著优于仅在真实环境中训练的 RL。

作为统一的智能体基础模型，LWM 预热训练可有效迁移至涵盖七个基准（其中三个完全未出现在训练集中）的多轮智能体任务，且无需在智能体任务上进行任何 RL 微调，初步验证了语言世界模型能够作为构建更强智能体模型的基础。

AgentWorldBench 评测：Qwen-AgentWorld 超越竞品

同步发布的 AgentWorldBench 是一个覆盖七大领域的语言世界模型评测基准，每条测试样本均配备真实环境执行所得的真实环境观测数据。Qwen-AgentWorld-397B-A17B 在 AgentWorldBench 上取得最高的整体均分（58.71），超越 GPT-5.4（58.25）及所有其他前沿模型，在 Terminal 和 SWE 两个领域优势最为显著。

在 35B-A3B 规模上，三阶段训练流水线将整体均分提升了 +8.66（47.73 -> 56.39），使 Qwen-AgentWorld-35B-A3B 超过 Claude Sonnet 4.6（56.04），且在文本类和 GUI 类领域上均保持一致。

编辑观点：Qwen-AgentWorld 的开源发布为智能体领域带来新突破，其多领域覆盖与出色性能有望推动智能体技术发展，也为行业竞争增添新动力。