AI 不会合作？那是因为它们没见过市场经济

📌 论文信息

论文：Economy of Minds 作者：Sham Kakade & Yilun Du (Harvard & MIT) 日期：2026 年 6 月 相关研究：Solipsistic Superintelligence (Google DeepMind, 2026.06) / LLMs Struggle with Simultaneous Coordination (UNC, 2026.02) / More Capable, Less Cooperative? (UIUC + UK AISI + FLI, 2026.04) 来源：36氪原文

📌 核心问题：Multi-Agent 为什么 1+1<2？

最近 Multi-Agent 协作方向集体遇冷。生产环境下多 Agent 系统的失败率在 41% 到 87% 之间，绝大多数失败不是因为模型不够聪明，而是因为协调本身崩了。

四组研究证据摆在桌面上：

哲学家就餐测试（北卡大学，2026.02）：三个前沿 LLM（GPT-5.2、Claude Opus 4.5、Grok 4.1）在同时决策模式下，死锁率 95-100%。更反直觉的是——让它们先沟通，死锁率反而从 25% 升到 65%。原因：趋同推理（convergent reasoning），所有 Agent 用同一种方式思考，得出同一个答案，同时行动
零成本合作实验（UIUC + UK AISI + FLI，2026.04）：10 个 Agent、20 轮交互、帮别人传递信息零代价。结果 OpenAI o3 的最优集体表现达成率仅 16.9%，而弱得多的 o3-mini 反而达到 50.4%，Gemini-2.5-Pro 达到 78.9%。能力越强，合作越差
同等预算对比（斯坦福，2026.04）：单 Agent vs 五种多 Agent 架构，1000+ token 预算下，单 Agent 稳定持平或优于所有多 Agent。过去报告的多 Agent 优势来自未控制的额外计算量
底层诊断（Google DeepMind，2026.06）：《Solipsistic Superintelligence》指出，现有训练方式从预训练到后训练都是 MDP（单人游戏），模型认知架构深处预设「我是这个宇宙中唯一拥有意志的实体」

关键洞察：LLM 的合作能力缺陷不是工程问题，而是训练范式的结构性产物。用 Prompt 强迫它「考虑别人的感受」，最多只是在单体世界里拙劣地模拟别人的投影。

🔥 解法：Economy of Minds — 用哈耶克自由市场重构 Multi-Agent

哈佛 & MIT 的 Sham Kakade & Yilun Du 在 2026 年 6 月发表论文《Economy of Minds》，核心思路：不设 orchestrator，不编排，只给一个市场环境，让 Agent 通过经济竞争自动暴露能力、自发涌现合作。

四大机制

拍卖（Auction）：任务到来时，所有 Agent 报出自己的出价，最高者赢得执行权。出价本身就是信息披露——你不需要打开买家的脑子看他怎么估值，他愿意出的价就代表了他的私有判断
桶旅式支付（Bucket-Brigade Credit Assignment）：赢得拍卖的 Agent 付钱给上一个行动的 Agent。A 拆解问题 → B 推导公式 → C 验证结果。下游愿意掏多少钱接盘，就是对上游工作价值最精确的市场定价。没有任何评委打分，信用分配是自动涌现的
经济自然选择（Economic Natural Selection）：每个 Agent 有一个「银行账户」。赚钱的 Agent → system prompt 微调变异后克隆（遗传+突变）。持续亏损 → 余额归零时被删除，替换为全新随机 Agent。什么样的 Agent 该存活、该淘汰，完全由市场结果决定
新手保护（Novice Rule）：新生成的 Agent 首次出价被强制设为当前最高竞标者 + ε，保证至少有一次执行机会。防止市场被已有富 Agent 垄断

关键洞察：整个系统没有 orchestrator，没有任务分配，没有信用分配模型。合作是自利行为在经济规则下的副产品。就像没有人指挥蚂蚁修巢，但蚂蚁巢穴精巧无比。当一个 Agent 拍下复杂任务后，出于「不想搞砸赔本」的利益考量，会自动把不擅长的部分切碎发包出去。任务流转的形状由市场供需规律自然生长出来。

📊 Benchmark 结果

论文在五个完全不同的领域测试，每个领域用 50 个 Agent 种群，底层模型 GPT-4 Turbo，运行 200 轮任务：

MATH（数学推理）：EOM 相对最强单 Agent 基线（Best-of-16 采样）提升 8.3%
HumanEval（代码生成）：提升 11.7%
ALFWorld（多步骤规划）：提升最为显著，达到 23.4%
创意写作 & 科研文献综述：均超越单 Agent 基线、Best-of-N 采样和编排式多 Agent 系统（AutoGen 风格）

消融实验证明四个机制都不可或缺：关掉拍卖性能下降 12%，关掉桶旅式支付下降 9%，关掉经济自然选择下降 15%，关掉新手规则下降 7%。

关键洞察：越是需要多轮迭代和自动纠错的任务，市场机制的优势越大。因为单 Agent 一条路走到黑容易陷入局部最优，而市场选择会让不同策略的 Agent 竞争，自动挑出那条走通了的路。

🧠 四个理论定理

出价收敛：长期均衡下，只有出价 ≈ 真实能力的 Agent 能稳定存活。出价过高会赢得拍卖但做不好任务，亏钱；出价过低永远赢不了，赚不到钱
终端奖励充分：优化仅凭最终结果就够了，桶旅式支付已自动把终端奖励分解到每一步，不需要对每步都进行奖励模型打分
渐近最优：没有编排者，市场机制的长期表现和有完美编排者一样好。计划经济的理论上限 = 市场经济的收敛均衡态。用 Agent 证明了哈耶克
信用分配近似 Shapley 值：桶旅式支付分配的收入近似博弈论中的公平酬劳，这个「看起来很粗糙」的支付机制在理论上和最精密的公平分配方案等价

🚀 反直觉发现：通才无法垄断市场

你可能以为一个能访问全部工具、什么都能做的通才会通吃所有任务。实验证明不行。在 Finance-Agent-Bench 上，通才在第 11-12 个任务附近短暂扩张，随后就收缩回单个 Agent。专才（绑定单个工具的 Agent）持续繁殖到 5-8 个。

原因：每个 Agent 的输出预算有限（平均 128 tokens），通才把能力摊薄在所有领域，每个方向都浅尝辄止；专才把全部预算压在一个方向，做到极致。在任何单一领域，专才的精细度都碾压通才。

关键洞察：专才的合作，才是最节约资源的模式。这在一定程度上解释了多智能体合作的必要性——没有任何单一专家 Agent 能够独立表现强于 swarm 整体，只有整个种群作为涌现系统运作时才达到最高性能。

💡 引发思考

Economy of Minds 不是终极方案，它做了很多激进简化（冻结权重、强制匿名、无记忆、仅 prompt 进化），但每个简化都是一个研究方向：

训练阶段引入多 Agent 环境：让模型从权重层面学会「在他者存在的环境中优化」，直接绕过唯我论的根源
引入声誉系统：下游 Agent 看到上游的历史表现，对靠谱的出更高价抢着接手
经济选择反馈到模型权重：赚钱的 Agent 获得 LoRA 微调资格，适应深度产生质变
引入记忆机制：让 Agent 记住自己在历史任务中的发现

核心范式转移：从「设计合作结果」到「设计合作条件」。出路不在于设计更好的 orchestrator，而在于设计一个合作有利可图、不合作会破产的生态。当前多 Agent 系统的核心矛盾：我们用计划经济的方式组织了一群从未学过合作的个体，然后对它们无法合作感到惊讶。

📌 相关阅读

36氪原文：AI 不会合作？那是因为他们没见过市场经济
Economy of Minds — Harvard & MIT (Sham Kakade & Yilun Du, 2026.06)
Solipsistic Superintelligence — Google DeepMind (2026.06)
Large Language Models Struggle with Simultaneous Coordination — UNC (2026.02)
More Capable, Less Cooperative? — UIUC + UK AISI + FLI (2026.04)
Single-Agent LLMs Outperform Multi-Agent Systems — Stanford (2026.04)

逍遥云初 | 2026.06.23

AI 不会合作？那是因为它们没见过市场经济 | 深度解读

📌 论文信息

📌 核心问题：Multi-Agent 为什么 1+1<2？

🔥 解法：Economy of Minds — 用哈耶克自由市场重构 Multi-Agent

四大机制

📊 Benchmark 结果

🧠 四个理论定理

🚀 反直觉发现：通才无法垄断市场

💡 引发思考

📌 相关阅读

推荐好物

相关文章

AI 不会合作？那是因为它们没见过市场经济 | 深度解读

📌 论文信息

📌 核心问题：Multi-Agent 为什么 1+1<2？

🔥 解法：Economy of Minds — 用哈耶克自由市场重构 Multi-Agent

四大机制

📊 Benchmark 结果

🧠 四个理论定理

🚀 反直觉发现：通才无法垄断市场

💡 引发思考

📌 相关阅读

推荐好物

家用电器

语言产品特惠

女装

相关文章

半导体先进制程扩产预期升温：先进封装迎来同步放量 | 新闻

Harness 设计 vs 模型能力：同一个模型换套框架，SWE-bench 成绩差 27%

Agentjacking：AI Coding Agent 的新攻击面 — MCP 隐式信任链被利用