论文链接:https://arxiv.org/abs/2603.19561

提交日期:2026年3月24日


核心问题

当前 AI 编码 Agent 面临一个根本性的成本-质量权衡:用强模型(GPT-5、Claude Opus)效果好但成本高,用弱模型成本低但质量差。这篇论文提出了一个不同的思路:不是让一个模型独自完成所有任务,而是让多个模型分工协作,各取所长。

具体来说,论文提出了 ManagerWorker 架构——由一个「经理模型」负责高层决策(分析 issue、制定计划、审查结果),由一个或多个「工人模型」负责执行层操作(在代码仓库中读取、搜索、修改代码)。经理模型可以是昂贵的 frontier 模型,工人模型可以是便宜的轻量模型。

关键数据

  • 在 SWE-bench Verified 上,ManagerWorker 架构使用便宜工人模型时,成本降低 40-60%,而 solve rate 仅下降 2-5 个百分点
  • 经理模型的分析质量直接决定整体表现:一个好的经理 + 差的工人,往往好过差的经理 + 好的工人
  • 多工人协作模式下(多个工人并行尝试不同方案),成功率有额外提升
  • 经理模型的 review 环节能有效过滤工人模型的低质量提交,充当质量门控

架构设计

1. Manager(经理模型)

  • 接收 GitHub issue 描述
  • 分析问题根因,制定修复计划
  • 分配子任务给 Worker
  • 审查 Worker 的提交结果,决定接受或打回
  • 特点:需要强推理能力,适合用 frontier 模型

2. Worker(工人模型)

  • 执行经理分配的具体任务:读文件、搜索代码、修改代码、运行测试
  • 可以有多个 Worker 并行工作,各自尝试不同方案
  • 特点:需要代码执行能力,但对推理深度要求较低,适合用便宜模型

3. 协作流程

  • Manager 解析 issue -> 制定计划 -> 分配子任务
  • Worker 执行子任务 -> 提交 patch
  • Manager review patch -> 接受/打回/修改
  • 循环直到所有子任务完成或达到上限

关键洞察

1. 经理比工人更重要

论文的核心发现是:经理模型的质量对整体表现的影响远大于工人模型。一个强经理 + 弱工人的组合,往往能打败弱经理 + 强工人的组合。这说明在 AI Agent 协作中,「分析和决策」比「执行」更关键。一个好的经理能通过精确的计划和严格的 review,弥补工人执行能力的不足。

2. 多 Agent 分工 = 新的 harness 设计模式

ManagerWorker 本质上是一种 harness 设计模式:通过角色分工,把一个复杂任务拆解为多个简单子任务,每个子任务由最适合的模型执行。这和 Harness Engineering 的核心理念一致——不是让模型更强,而是让协作架构更好。环境设计(给 Worker 提供 repo 访问)+ 反馈循环(Manager review)+ 黄金原则编码(测试通过才算完成)= 三层 harness。

3. 成本优化的真实路径

之前降低成本的思路主要是:用更小的模型、做模型蒸馏、量化推理。ManagerWorker 提供了一个新的路径:不换模型,换架构。让贵的模型做高价值决策(分析、规划、review),让便宜的模型做低价值执行(读代码、改代码、跑测试)。这种分工方式在人类团队中早已成熟,现在被应用到了 AI Agent 协作中。

4. 与 Harness Engineering 的关联

这篇论文完美体现了 Harness Engineering 的几个核心原则:环境设计(给 Worker 提供结构化的代码仓库访问接口)、反馈循环(Manager 对 Worker 的提交进行 review 和打回)、渐进式披露(Worker 只看到分配给自己的子任务,不需要理解整体架构)。ManagerWorker 架构可以看作是 Harness Engineering 在多 Agent 协作场景下的一个具体实例。

引发思考

如果 ManagerWorker 架构被广泛采用,AI 编码 Agent 的成本结构将发生根本变化:之前是「一个模型吃掉所有 token」,现在是「按角色分配 token 预算」。这对产品设计有直接影响——用户可以用便宜的 Worker 模型处理 80% 的简单任务,只在需要深度分析时调用 Manager 模型。这也意味着,AI 编码工具的竞争重点可能从「谁的模型更强」转向「谁的协作架构更好」。


相关阅读

逍遥云初 | 2026.03.31