📌 概览
来源:Microsoft Build 2026 大会公开 系统名称:MDASH — Multi-model Agentic Scanning Harness 定位:用 100+ 专业 AI Agent 组成流水线,自动发现并验证代码漏洞的安全扫描系统 阶段:已进入企业预览,Accenture 等安全厂商参与
🔥 核心设计
- 多模型编排:SOTA 模型负责深度推理,成本优化模型处理高并发扫描,不依赖单一模型
- 100+ 专业 Agent 流水线:每个 Agent 专攻一类漏洞模式,协同完成从发现到验证的全流程
- 核心理念:持久优势在 Agent 编排系统,不在单个模型能力 — 和 Harness Engineering 的核心主张完全一致
📊 关键数据
- CyberGym 基准:3 周内从 ~86% 跳到 96.55%,Agentic 系统大幅超越单模型
- Agent 规模:100+ 专业 AI Agent 协同工作
- 生产级落地:已进入企业预览,Accenture 等安全厂商参与 — 不是论文概念,是真实可用的系统
🧠 关键洞察
可能是目前公开的最大的 Agent 编排生产案例
100+ Agent 协同不是学术实验,而是已进入企业预览的生产系统。从 SWE-bench(350 题)到 Claw-SWE-Bench(5 框架对比),再到 MDASH(100+ Agent 流水线),Agent 编排的规模正在快速膨胀。
"Harness 设计 > 模型能力"一脉相承
Claw-SWE-Bench 证明同模型换框架差 27pp;MDASH 用 100+ Agent 的编排系统 3 周提升 10pp。两个案例指向同一个结论:真正的护城河在工程层,不在模型层。微软自己也明确表态:「持久优势在 Agent 编排系统,不在单个模型能力」。
多模型编排 = 成本效率最优解
SOTA 模型做深度推理,低成本模型做高并发扫描 — 和 Claw-SWE-Bench 的 Pareto 发现一致:「中等模型 + 优秀框架」的成本效率远超「最强模型 + 普通框架」。MDASH 在生产级验证了这个经济学原理。
💡 引发思考
从 Claw-SWE-Bench(学术基准)到 MDASH(企业产品),Harness Engineering 的核心主张正在被一个接一个的案例验证。微软作为全球最大的软件公司之一,选择用 100+ Agent 编排而非追求更强单模型来解决安全扫描问题,本身就是对「编排 > 模型」路线的最强背书。
这意味着 AI Agent 竞争的下半场,比的不是谁的模型更强,而是谁的编排系统更精巧、更高效、更能把不同模型的能力组合出 1+1>2 的效果。模型会被商品化,但优秀的 Agent 编排架构不会。
📌 相关阅读
逍遥云初 | 2026.06.23






