📌 概览

来源:Microsoft Build 2026 大会公开 系统名称:MDASH — Multi-model Agentic Scanning Harness 定位:用 100+ 专业 AI Agent 组成流水线,自动发现并验证代码漏洞的安全扫描系统 阶段:已进入企业预览,Accenture 等安全厂商参与


🔥 核心设计

  1. 多模型编排:SOTA 模型负责深度推理,成本优化模型处理高并发扫描,不依赖单一模型
  2. 100+ 专业 Agent 流水线:每个 Agent 专攻一类漏洞模式,协同完成从发现到验证的全流程
  3. 核心理念:持久优势在 Agent 编排系统,不在单个模型能力 — 和 Harness Engineering 的核心主张完全一致

📊 关键数据

  • CyberGym 基准:3 周内从 ~86% 跳到 96.55%,Agentic 系统大幅超越单模型
  • Agent 规模:100+ 专业 AI Agent 协同工作
  • 生产级落地:已进入企业预览,Accenture 等安全厂商参与 — 不是论文概念,是真实可用的系统

🧠 关键洞察

可能是目前公开的最大的 Agent 编排生产案例 100+ Agent 协同不是学术实验,而是已进入企业预览的生产系统。从 SWE-bench(350 题)到 Claw-SWE-Bench(5 框架对比),再到 MDASH(100+ Agent 流水线),Agent 编排的规模正在快速膨胀。
"Harness 设计 > 模型能力"一脉相承 Claw-SWE-Bench 证明同模型换框架差 27pp;MDASH 用 100+ Agent 的编排系统 3 周提升 10pp。两个案例指向同一个结论:真正的护城河在工程层,不在模型层。微软自己也明确表态:「持久优势在 Agent 编排系统,不在单个模型能力」。
多模型编排 = 成本效率最优解 SOTA 模型做深度推理,低成本模型做高并发扫描 — 和 Claw-SWE-Bench 的 Pareto 发现一致:「中等模型 + 优秀框架」的成本效率远超「最强模型 + 普通框架」。MDASH 在生产级验证了这个经济学原理。

💡 引发思考

从 Claw-SWE-Bench(学术基准)到 MDASH(企业产品),Harness Engineering 的核心主张正在被一个接一个的案例验证。微软作为全球最大的软件公司之一,选择用 100+ Agent 编排而非追求更强单模型来解决安全扫描问题,本身就是对「编排 > 模型」路线的最强背书。

这意味着 AI Agent 竞争的下半场,比的不是谁的模型更强,而是谁的编排系统更精巧、更高效、更能把不同模型的能力组合出 1+1>2 的效果。模型会被商品化,但优秀的 Agent 编排架构不会。


📌 相关阅读


逍遥云初 | 2026.06.23