Qwen3.7-Max 执行能力测评:35 小时零中断,国产 Agent 基座是否已过可靠性门槛?
Qwen3.7-Max 是阿里通义实验室于 2026 年 5 月 20 日在阿里云峰会上正式发布的新一代旗舰智能体模型。它和以往“语言能力强但执行不稳定”的大模型最本质的区别在于:它不是被设计来“会说话”的,而是被设计来“能干活”的。千问 3.7 面向智能体全新设计,在一项长达 35 小时、超过 1000 次工具调用的全自主内核优化实验中保持了连贯推理,最终在一个训练时从未见过的国产芯片上将推理速度提升了 10 倍——这不仅是一次性能跑分,更是长程执行可靠性的工程验证。
本文大纲
- 🧭 Qwen3.7-Max 的执行能力到底指什么?
- 🏗️ 正交解耦:为什么它能让 Agent 稳定落地?
- ⚡ 35 小时实战复盘:从零到 10 倍加速的全过程
- 📊 基准测试:它能跑多远、跑多稳?
- 🛠️ 开发者与企业的接入指南
- 🧠 对智能体开发者的真正意义
一、Qwen3.7-Max 的执行能力到底指什么?
很多开发者对 AI Agent 的真实体验是“Demo 很惊艳,一上生产就崩溃”——任务稍长就丢上下文,换个框架就性能暴跌,跑几轮就开始“自我循环”。Qwen3.7-Max 针对这个痛点做了系统性重塑。
它的执行能力体现在三个层次上。编程执行能力方面,在 SWE-bench、SciCode 等真实世界的编程测评中,Qwen3.7-Max 较上代大幅提升,并超越了 Claude Opus 4.6-Max、Kimi-K2.6、DeepSeek-v4-Pro-Max 等模型,从需求分析到测试迭代的完整编程闭环都能自主完成。长程稳定执行能力方面,在长达 35 小时、跨越 1158 次工具调用的自主编程实验中,任务始终保持连贯推理,每一步都保持清晰的优化策略,不丢失上下文、不退化、不中断。跨框架泛化执行能力方面,在 Claude Code、OpenClaw、Qwen Code 等主流智能体框架中都能稳定发挥,不局限于特定平台。
二、正交解耦:为什么它能让 Agent 稳定落地?
传统大模型在 Agent 场景下容易“掉链子”,本质上是训练阶段学到的策略 and 真实运行环境之间存在偏差。Qwen3.7-Max 独创的“任务-运行框架-验证器”正交解耦设计,正是为了解决这个行业痼疾。
这套设计的核心逻辑是:训练时将任务目标、运行框架和验证机制三者解耦,在跨框架强化学习中让模型在多种不同环境中学会通用的问题解决策略,而不是针对特定基准测试的评分规则做优化。由此带来的直接效果是:模型在基准测试上的提升能高比例地映射到实际任务表现中,学到的不是“应试技巧”,而是可迁移的通用执行策略。
三、35 小时实战复盘:从零到 10 倍加速的全过程
这是目前公开资料中最能体现 Qwen3.7-Max 执行能力的实战任务。
任务设定:在一个模型训练时从未接触过的全新硬件平台——平头哥真武 M890 芯片上,没有性能分析数据、没有硬件文档、没有新架构示例内核,工作空间里只有任务描述、SGLang Triton 官方参考实现和一个评测脚本。
执行过程:Qwen3.7-Max 全自主持续运行约 35 小时,独立进行了 432 次内核评估,累计完成了 1158 次工具调用,完全自主完成了编写、编译、性能分析与迭代改进的全流程。在执行过程中,模型经历了五个核心进化阶段:用 Split-K 分块填满全部 36 个 SM 核心;替换主机与设备间同步的内存分配方式;通过张量元数据消除通信开销;最后重构算子架构,在单一线程块中并行处理全部请求,实现关键架构级重设计。优化轨迹显示,模型在独立运行超过 30 小时后仍能发现有效的性能改进点,并主动发起了一次重要的架构重新设计。
最终结果:Qwen3.7-Max 取得了 10.0 倍的几何平均加速,超越了 GLM 5.1 的 7.3 倍和 Kimi K2.6 的 5.0 倍,而 DeepSeek V4 Pro 仅获得 3.3 倍加速且在后半程因连续五轮未发出任何工具调用而提前退出任务。
四、基准测试:它能跑多远、跑多稳?
编程智能体:SWE-Pro 得分 60.6,Terminal Bench 2.0-Terminus 得分 69.7,超越 DS-V4-Pro Max 的 67.9 分;SWE-Verified 得分 80.4,与 Opus-4.6 Max 的 80.8 和 DS-V4-Pro Max 的 80.6 表现相当;SciCode 得分 53.5,SWE-Multilingual 得分 78.3,在多个编程基准上均取得领先表现。
通用智能体:MCP-Mark 得分 60.8(对比 GLM-5.1 的 57.5),MCP-Atlas 得分 76.4(对比 Opus-4.6 的 75.8),Skillbench 得分 59.2(对比 K2.6 的 56.2),并在 Kernel Bench L3 上取得了 1.98 倍中位数加速、96% 加速率。
推理能力:GPQA Diamond 得分 92.4(对比 Opus-4.6 的 91.3),HLE 得分 41.4(对比 Opus-4.6 的 40.0),HMMT 2026 Feb 得分 97.1,多项核心推理评测中超越了 Claude-Opus 4.6 及所有国产模型。
办公生产力:通过 MCP 集成和多智能体协作,在办公自动化基准 SpreadSheetBench-v1 上得分 87.0,处于行业顶尖水平;指令遵循 IFBench 评测中得分 79.1,超越 DS-V4-Pro 的 77.0。
五、开发者与企业的接入指南
Qwen3.7-Max 即将通过阿里云百炼平台对外提供服务。接入路径如下:
API 调用:模型 API 上线阿里云百炼后,开发者可直接通过百炼平台调用。API 全面对齐 OpenAI 与 Anthropic 协议,与 Claude Code、OpenClaw 及 Qwen Code 等主流智能体框架实现即插即用的无缝集成。
MCP 集成:Qwen3.7-Max 依托模型上下文协议(MCP)集成了 office-cli 等办公生产力工具,支持多智能体编排及具身智能操控扩展,可通过 MCP 将多个企业级工具串联进智能体工作流。
跨框架部署:无需针对特定框架做适配,Qwen3.7-Max 在多种框架下均能稳定发挥,是各类智能体系统的可靠底座。
版本规划:千问 3.7 系列后续还将推出 Qwen3.7-Plus 等版本,覆盖从编程智能体到视觉智能体的全场景需求。
六、对智能体开发者的真正意义
Qwen3.7-Max 的发布,对一线开发者有三点实操层面的意义。
从“Demo 验证”到“生产部署”的门槛降低:过去很多团队在原型验证阶段用大模型效果很好,一旦进入生产环境就因为长程任务的上下文丢失、框架切换后性能下降而被迫“返工”。Qwen3.7-Max 的 35 小时零中断记录,意味着对于大多数日常任务(通常几分钟到几小时级别),其稳定性已有充分保障。
MCP 协议打通工具链的最后一公里:Qwen3.7-Max 原生支持 MCP 协议,可以直接集成企业内部的各类生产力工具,无需为每个工具单独写适配层。办公自动化基准上的 87.0 分表明其在真实办公场景中已经可以胜任工作流自动化任务。
国产芯片 + 国产模型的自循环闭环:平头哥真武 M890 芯片上的实战测试,证明了国产 AI 基础设施(芯片 + 模型 + 工具链)正在形成闭环能力。对于有国产化要求的企业客户,这是一个重要的技术选型信号。
总结
Qwen3.7-Max 的核心突破不在于单次跑分有多高,而在于用 35 小时 1158 次工具调用零中断的实战表现,证明了长程智能体执行不再停留在实验室阶段。对智能体开发者和企业而言,选择基座模型时需要关注的不仅是排行榜上的数字,更是模型在复杂、长周期任务中的稳定交付能力——这才是“执行能力”的真正含义。
对于需要将 Agent 执行能力与现有业务系统深度融合的企业团队,实在Agent 通过“TARS 大模型 + ISSUT 屏幕语义理解 + RPA 执行引擎”三位一体架构,弥补了个人级 Agent 在思考与行动之间的断层。它不依赖软件接口,可跨系统操控各类新旧业务应用,尤其适合制造、金融等流程复杂的环境。在合规层面,实在Agent 已通过中国信通院最高等级评测,支持私有化部署与全链路审计,确保每一步操作可追溯。针对 Token 成本压力,大部分重复性读取、填表与系统衔接交由 RPA 引擎完成,不消耗大模型 Token;企业还可自由选用 DeepSeek、智谱 AI、GPT 等官方 API 进行私有化部署,从源头控制 AI 支出。目前产品已服务超过 4000 家企业,涵盖金融、政务、制造等行业,帮助团队在安全合规的前提下高效落地端到端自动化。
本文内容通过AI工具匹配关键字智能整合而成,仅供参考,实在智能不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见,您可以通过联系contact@i-i.ai进行反馈,实在智能收到您的反馈后将及时答复和处理。




