阿里旗下通义千问团队近日宣布,推出具备多模态交互能力的智能体模型Qwen3.7-Plus,标志着人工智能从单一感知向复合操作能力迈出重要一步。该模型突破传统多模态模型"看图说话"的局限,通过整合界面感知、工具调用、代码生成与任务验证能力,形成"观察-推理-执行-验证"的完整闭环,可自主完成网页设计、应用开发、复杂任务执行等场景化操作。
在技术架构层面,Qwen3.7-Plus创新性地将GUI操作、CLI命令调用、代码生成与自我验证机制整合为统一智能体循环。实测数据显示,该模型在BabyVision多模态推理测试中取得70.4分,超越GPT-5.4(53.1分)与Gemini 3.1 Pro(55.9分);在ScreenSpot Pro视觉编程测试中,以79.0分领先同类模型10个百分点以上。特别在RealWorldQA开放场景测试中,其86.9分的成绩展现出强大的真实环境适应能力。
开发团队构建的Hybrid-Agent系统验证了模型的实际工程价值。在持续11小时的测试中,该系统自主完成英语单词学习App的全流程开发,生成超过1万行代码,触发1000余次工具调用,最终产品包含单词本、消消乐游戏、限时挑战等8个功能模块。更引人注目的是,模型成功复刻macOS Stocks应用,不仅还原暗色主题与分栏布局,更通过接入实时行情API实现数据动态更新,所有功能验证测试均一次性通过。
针对复杂视觉任务,Qwen3.7-Plus展现出独特的解题范式。在"找不同"测试中,模型先进行图像几何结构分析,继而生成差异坐标图,最终通过5轮代码迭代精准定位5处差异点。处理植物病害诊断时,模型结合叶片特征分析与7轮网络检索,输出包含病斑颜色、纹理等12项参数的详细诊断报告。在地铁线路规划场景中,模型可解析新加坡地铁图上200余个站点的拓扑关系,自动规划最优换乘路径。
浏览器智能助手应用进一步拓展了模型的应用边界。通过Chrome插件实现的Agent模式,可自动感知网页内容并执行多步骤操作。在云服务器采购测试中,系统自动比对12家云厂商价格,完成机型选型、安全组配置等17个操作步骤,遇到库存不足时能智能切换备选方案。该功能特别优化了非技术用户的操作体验,用户仅需输入自然语言需求即可完成复杂采购流程。
尽管在3D渲染等复杂场景仍存在稳定性挑战,但开发团队通过引入"思考模式"显著提升交付质量。在生成"骑自行车的鹈鹕"3D作品时,模型先进行场景要素分析,继而分阶段生成静态图像与HTML代码,最终产品支持多角度旋转与动态光影效果。这种多轮迭代机制为解决复杂任务提供了新思路,标志着多模态模型向高可靠工程应用迈出关键一步。
