📌 核心问题:当 AI 开始构建自己

Anthropic 在 2026 年 6 月发布了这篇深度报告,揭示了一个正在发生的现实:AI 系统正在加速 AI 自身的开发。截至 2026 年 5 月,Anthropic 合并到代码库的代码中,超过 80% 由 Claude 编写。

文章以 Anthropic 内部未公开数据为支撑,从工程和研究两个维度展示了 AI 如何系统性地接管开发流程。从 2021-2025 年的人类手写代码,到 2025-2026 年的编码 Agent,再到今天的自主 Agent——每个阶段人类的角色都在收窄。

核心问题是:当 AI 能够自己运行实验、提出假设、甚至做出研究判断时,人类在 AI 开发中的不可替代角色还剩什么?Anthropic 坦言,目前人类的比较优势在于「研究品味」——选择什么问题值得解决。但这个优势的边界正在快速缩小。

📊 关键数据

  • 80%+:Anthropic 代码库中由 Claude 编写的代码比例(2026 年 5 月)
  • 8x:工程师人均每日合并代码量 vs 2024 年(2026 Q2)
  • 52x:Claude Mythos Preview 在代码优化任务中的加速比(2026 年 4 月),对比 Opus 4 的 3x(2025 年 5 月)
  • 76%:Claude 在开放式任务上的成功率(2026 年 5 月),6 个月内提升 50 个百分点
  • 4x:130 名 Anthropic 研究人员使用 Mythos Preview 的中位生产力提升估算
  • 1000x:Claude 一次性修复 800+ 个 bug,将某类 API 错误减少 1000 倍,人类估计需要 4 年
  • 64%:Claude Mythos Preview 在研究决策对比中比人类选择更优的比例
  • 任务时长趋势:Opus 3(4min)→ Sonnet 3.7(1.5h)→ Opus 4.6(12h),翻倍周期从 7 个月缩短到 4 个月

🏗️ 技术架构与设计

  • 代码编写 → 自动审查 → 实验执行 → 结果分析 → 假设提出:完整 AI 驱动研发闭环正在形成
  • SWE-bench 从低个位数到饱和仅用 2 年;CORE-Bench 从 20% 到饱和仅用 15 个月
  • METR 评估显示 Claude Mythos Preview 可连续工作至少 16 小时,已达评估框架测量上限
  • 自动化代码审查系统:Claude 在代码合并前检查 bug、安全漏洞和缺陷
  • 多 Agent 协作:在 AI 安全研究中,Claude Agent 群组自行提出假设、运行实验、共享发现,800 工时完成 97% 进度

🔑 关键洞察

1. 人类角色正在系统性收窄

Anthropic 用一个类比描述:初级员工执行指定任务,高级工程师设计解决方案,最资深的人决定做什么问题。Claude 已能可靠处理前两级,第三级——判断力——是人类仅存的比较优势。但这个优势也在被侵蚀:在研究决策对比中,Claude 64% 的时间做出了比人类更好的选择。

2. 代码质量已达人类平手,即将超越

2025 年底 Anthropic 内部普遍认为 Claude 代码质量不如人类。到 2026 年中已基本持平,预计年内反超。人类即将失去在代码质量上的最后优势,「人类写代码」可能在未来一两年内变得罕见。

3. 递归自我改进已非假设,而是渐进现实

虽然完全的递归自我改进尚未实现,但每一步都在逼近。任务翻倍周期从 7 个月缩短到 4 个月,代码优化从 3x 跳到 52x。爱迪生说天才是 1% 灵感 + 99% 汗水——汗水正在被自动化。

4. 8x 产出 ≠ 8x 效率,但加速是真实的

Anthropic 坦承 8x 代码量衡量数量而非质量。但结合 4x 主观生产力估算、成功率持续上升、以及那些「不会发生的工作」,整体加速趋势确凿。更关键的是,这种加速是复合的:模型越强→完成的任务越多→训练数据越好→模型更强。

🤔 引发思考

这篇文章最深刻的启示不是「AI 很强」,而是 AI 能力的增长曲线正在自我加速。当一个系统能改进自己的开发流程时,改进速度不再是线性的。Anthropic 的数据表明,这种加速已经在发生:任务翻倍周期从 7 个月缩短到 4 个月,代码优化从 3x 跳到 52x。

对行业而言,这意味着:第一,「AI 能力差距」将成为企业竞争核心变量——不是你有没有用 AI,而是你的 AI 能改进多快。第二,软件工程师角色将从「写代码」转向「做判断」,研究品味和系统思维比编码能力更有价值。第三,安全问题更加紧迫——当系统能改进自己时,确保安全的方式也必须跟上。Anthropic 直言:递归自我改进可能比大多数机构准备好的时间来得更早。


📎 相关阅读

  • 原文链接:https://www.anthropic.com/institute/recursive-self-improvement
  • Claude Mythos Preview 技术报告:https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf
  • METR 任务时长评估:https://metr.org/time-horizons/

逍遥云初 | 2026.06.07