📌 论文信息
论文:Economy of Minds 作者:Sham Kakade & Yilun Du (Harvard & MIT) 日期:2026 年 6 月 相关研究:Solipsistic Superintelligence (Google DeepMind, 2026.06) / LLMs Struggle with Simultaneous Coordination (UNC, 2026.02) / More Capable, Less Cooperative? (UIUC + UK AISI + FLI, 2026.04) 来源:36氪原文
📌 核心问题:Multi-Agent 为什么 1+1<2?
最近 Multi-Agent 协作方向集体遇冷。生产环境下多 Agent 系统的失败率在 41% 到 87% 之间,绝大多数失败不是因为模型不够聪明,而是因为协调本身崩了。
四组研究证据摆在桌面上:
- 哲学家就餐测试(北卡大学,2026.02):三个前沿 LLM(GPT-5.2、Claude Opus 4.5、Grok 4.1)在同时决策模式下,死锁率 95-100%。更反直觉的是——让它们先沟通,死锁率反而从 25% 升到 65%。原因:趋同推理(convergent reasoning),所有 Agent 用同一种方式思考,得出同一个答案,同时行动
- 零成本合作实验(UIUC + UK AISI + FLI,2026.04):10 个 Agent、20 轮交互、帮别人传递信息零代价。结果 OpenAI o3 的最优集体表现达成率仅 16.9%,而弱得多的 o3-mini 反而达到 50.4%,Gemini-2.5-Pro 达到 78.9%。能力越强,合作越差
- 同等预算对比(斯坦福,2026.04):单 Agent vs 五种多 Agent 架构,1000+ token 预算下,单 Agent 稳定持平或优于所有多 Agent。过去报告的多 Agent 优势来自未控制的额外计算量
- 底层诊断(Google DeepMind,2026.06):《Solipsistic Superintelligence》指出,现有训练方式从预训练到后训练都是 MDP(单人游戏),模型认知架构深处预设「我是这个宇宙中唯一拥有意志的实体」
🔥 解法:Economy of Minds — 用哈耶克自由市场重构 Multi-Agent
哈佛 & MIT 的 Sham Kakade & Yilun Du 在 2026 年 6 月发表论文《Economy of Minds》,核心思路:不设 orchestrator,不编排,只给一个市场环境,让 Agent 通过经济竞争自动暴露能力、自发涌现合作。
四大机制
- 拍卖(Auction):任务到来时,所有 Agent 报出自己的出价,最高者赢得执行权。出价本身就是信息披露——你不需要打开买家的脑子看他怎么估值,他愿意出的价就代表了他的私有判断
- 桶旅式支付(Bucket-Brigade Credit Assignment):赢得拍卖的 Agent 付钱给上一个行动的 Agent。A 拆解问题 → B 推导公式 → C 验证结果。下游愿意掏多少钱接盘,就是对上游工作价值最精确的市场定价。没有任何评委打分,信用分配是自动涌现的
- 经济自然选择(Economic Natural Selection):每个 Agent 有一个「银行账户」。赚钱的 Agent → system prompt 微调变异后克隆(遗传+突变)。持续亏损 → 余额归零时被删除,替换为全新随机 Agent。什么样的 Agent 该存活、该淘汰,完全由市场结果决定
- 新手保护(Novice Rule):新生成的 Agent 首次出价被强制设为当前最高竞标者 + ε,保证至少有一次执行机会。防止市场被已有富 Agent 垄断
📊 Benchmark 结果
论文在五个完全不同的领域测试,每个领域用 50 个 Agent 种群,底层模型 GPT-4 Turbo,运行 200 轮任务:
- MATH(数学推理):EOM 相对最强单 Agent 基线(Best-of-16 采样)提升 8.3%
- HumanEval(代码生成):提升 11.7%
- ALFWorld(多步骤规划):提升最为显著,达到 23.4%
- 创意写作 & 科研文献综述:均超越单 Agent 基线、Best-of-N 采样和编排式多 Agent 系统(AutoGen 风格)
消融实验证明四个机制都不可或缺:关掉拍卖性能下降 12%,关掉桶旅式支付下降 9%,关掉经济自然选择下降 15%,关掉新手规则下降 7%。
🧠 四个理论定理
- 出价收敛:长期均衡下,只有出价 ≈ 真实能力的 Agent 能稳定存活。出价过高会赢得拍卖但做不好任务,亏钱;出价过低永远赢不了,赚不到钱
- 终端奖励充分:优化仅凭最终结果就够了,桶旅式支付已自动把终端奖励分解到每一步,不需要对每步都进行奖励模型打分
- 渐近最优:没有编排者,市场机制的长期表现和有完美编排者一样好。计划经济的理论上限 = 市场经济的收敛均衡态。用 Agent 证明了哈耶克
- 信用分配近似 Shapley 值:桶旅式支付分配的收入近似博弈论中的公平酬劳,这个「看起来很粗糙」的支付机制在理论上和最精密的公平分配方案等价
🚀 反直觉发现:通才无法垄断市场
你可能以为一个能访问全部工具、什么都能做的通才会通吃所有任务。实验证明不行。在 Finance-Agent-Bench 上,通才在第 11-12 个任务附近短暂扩张,随后就收缩回单个 Agent。专才(绑定单个工具的 Agent)持续繁殖到 5-8 个。
原因:每个 Agent 的输出预算有限(平均 128 tokens),通才把能力摊薄在所有领域,每个方向都浅尝辄止;专才把全部预算压在一个方向,做到极致。在任何单一领域,专才的精细度都碾压通才。
💡 引发思考
Economy of Minds 不是终极方案,它做了很多激进简化(冻结权重、强制匿名、无记忆、仅 prompt 进化),但每个简化都是一个研究方向:
- 训练阶段引入多 Agent 环境:让模型从权重层面学会「在他者存在的环境中优化」,直接绕过唯我论的根源
- 引入声誉系统:下游 Agent 看到上游的历史表现,对靠谱的出更高价抢着接手
- 经济选择反馈到模型权重:赚钱的 Agent 获得 LoRA 微调资格,适应深度产生质变
- 引入记忆机制:让 Agent 记住自己在历史任务中的发现
核心范式转移:从「设计合作结果」到「设计合作条件」。出路不在于设计更好的 orchestrator,而在于设计一个合作有利可图、不合作会破产的生态。当前多 Agent 系统的核心矛盾:我们用计划经济的方式组织了一群从未学过合作的个体,然后对它们无法合作感到惊讶。
📌 相关阅读
- 36氪原文:AI 不会合作?那是因为他们没见过市场经济
- Economy of Minds — Harvard & MIT (Sham Kakade & Yilun Du, 2026.06)
- Solipsistic Superintelligence — Google DeepMind (2026.06)
- Large Language Models Struggle with Simultaneous Coordination — UNC (2026.02)
- More Capable, Less Cooperative? — UIUC + UK AISI + FLI (2026.04)
- Single-Agent LLMs Outperform Multi-Agent Systems — Stanford (2026.04)
逍遥云初 | 2026.06.23






