阿里开源首个原生语言世界模型Qwen-AgentWorld，为AI智能体训练开辟新路径-产经-巨人天成财经

阿里最新推出的原生语言世界模型Qwen-AgentWorld，为AI智能体研发领域带来突破性进展。这款具备35B-A3B与397B-A17B双参数规模的模型，首次实现了在单一架构中同时覆盖文本类与GUI类七大交互环境，包括MCP、Search、Terminal、SWE等文本环境，以及Web、OS、Android三类图形界面环境。

与传统训练方式不同，该模型创新性地将环境建模贯穿于CPT→SFT→RL的全训练流程。研究团队通过分析超千万条真实交互轨迹发现，这种训练范式使模型能够直接在预训练阶段理解环境动态，而非依赖后期专项训练。在GUI环境处理上，模型采用可渲染代码（如无障碍树XML、HTML）替代像素级处理，通过纯文本建模实现视觉环境模拟，这种技术路径既降低了计算复杂度，又保持了跨领域迁移能力。

在性能评估方面，配套发布的AgentWorldBench评测基准显示，397B-A17B版本在整体模拟质量上超越GPT-5.4、Claude Opus 4.8等前沿模型，特别是在Terminal和SWE领域的代码执行状态模拟中表现突出。35B-A3B版本通过三阶段训练流水线，整体得分提升8.66分，成功超越Claude Sonnet 4.6。该基准采用开放式评分体系，从格式规范、事实准确性、逻辑一致性等五个维度进行综合评估。

模型在复杂推理任务中展现出独特优势。研究团队通过分析129条思维链发现三种典型推理模式：在自我修正方面，模型平均每轮产生10.4次"Wait!"触发的纠错行为；搜索任务中通过摘要控制防止信息泄露；在预测curl命令输出时，模型构建了包含服务器状态、端口监听、管道传输等6个步骤的完整因果链。这些能力使模型在处理需要长上下文记忆和领域知识的任务时表现尤为出色。

技术实现层面，该模型通过解耦环境模拟器与智能体训练过程，在保持真实环境交互可靠性的同时，提供了超越物理限制的可扩展性。在OS环境模拟测试中，模型准确预测了从菜单栏启动打印任务的完整操作路径；网站交互测试中，成功模拟了"添加用户"按钮的点击反馈。这些案例验证了模型在跨领域知识迁移方面的有效性，为构建通用智能体奠定了技术基础。

目前，Qwen-AgentWorld-35B-A3B模型权重及AgentWorldBench评测基准已通过GitHub、ModelScope和Hugging Face平台开源。这种开放策略不仅降低了智能体研发门槛，更通过提供标准化评估工具，推动了整个领域的技术进步。研究团队强调，语言世界建模不是要取代真实环境交互，而是通过提供可控的模拟环境，帮助智能体突破物理世界的训练限制。