When AI Builds Itself：Anthropic 揭示 AI 递归自我改进的现实与边界

📌 核心问题：当 AI 开始构建自己

Anthropic 在 2026 年 6 月发布了这篇深度报告，揭示了一个正在发生的现实：AI 系统正在加速 AI 自身的开发。截至 2026 年 5 月，Anthropic 合并到代码库的代码中，超过 80% 由 Claude 编写。

文章以 Anthropic 内部未公开数据为支撑，从工程和研究两个维度展示了 AI 如何系统性地接管开发流程。从 2021-2025 年的人类手写代码，到 2025-2026 年的编码 Agent，再到今天的自主 Agent——每个阶段人类的角色都在收窄。

核心问题是：当 AI 能够自己运行实验、提出假设、甚至做出研究判断时，人类在 AI 开发中的不可替代角色还剩什么？Anthropic 坦言，目前人类的比较优势在于「研究品味」——选择什么问题值得解决。但这个优势的边界正在快速缩小。

📊 关键数据

80%+：Anthropic 代码库中由 Claude 编写的代码比例（2026 年 5 月）
8x：工程师人均每日合并代码量 vs 2024 年（2026 Q2）
52x：Claude Mythos Preview 在代码优化任务中的加速比（2026 年 4 月），对比 Opus 4 的 3x（2025 年 5 月）
76%：Claude 在开放式任务上的成功率（2026 年 5 月），6 个月内提升 50 个百分点
4x：130 名 Anthropic 研究人员使用 Mythos Preview 的中位生产力提升估算
1000x：Claude 一次性修复 800+ 个 bug，将某类 API 错误减少 1000 倍，人类估计需要 4 年
64%：Claude Mythos Preview 在研究决策对比中比人类选择更优的比例
任务时长趋势：Opus 3（4min）→ Sonnet 3.7（1.5h）→ Opus 4.6（12h），翻倍周期从 7 个月缩短到 4 个月

🏗️ 技术架构与设计

代码编写 → 自动审查 → 实验执行 → 结果分析 → 假设提出：完整 AI 驱动研发闭环正在形成
SWE-bench 从低个位数到饱和仅用 2 年；CORE-Bench 从 20% 到饱和仅用 15 个月
METR 评估显示 Claude Mythos Preview 可连续工作至少 16 小时，已达评估框架测量上限
自动化代码审查系统：Claude 在代码合并前检查 bug、安全漏洞和缺陷
多 Agent 协作：在 AI 安全研究中，Claude Agent 群组自行提出假设、运行实验、共享发现，800 工时完成 97% 进度

🔑 关键洞察

1. 人类角色正在系统性收窄

Anthropic 用一个类比描述：初级员工执行指定任务，高级工程师设计解决方案，最资深的人决定做什么问题。Claude 已能可靠处理前两级，第三级——判断力——是人类仅存的比较优势。但这个优势也在被侵蚀：在研究决策对比中，Claude 64% 的时间做出了比人类更好的选择。

2. 代码质量已达人类平手，即将超越

2025 年底 Anthropic 内部普遍认为 Claude 代码质量不如人类。到 2026 年中已基本持平，预计年内反超。人类即将失去在代码质量上的最后优势，「人类写代码」可能在未来一两年内变得罕见。

3. 递归自我改进已非假设，而是渐进现实

虽然完全的递归自我改进尚未实现，但每一步都在逼近。任务翻倍周期从 7 个月缩短到 4 个月，代码优化从 3x 跳到 52x。爱迪生说天才是 1% 灵感 + 99% 汗水——汗水正在被自动化。

4. 8x 产出 ≠ 8x 效率，但加速是真实的

Anthropic 坦承 8x 代码量衡量数量而非质量。但结合 4x 主观生产力估算、成功率持续上升、以及那些「不会发生的工作」，整体加速趋势确凿。更关键的是，这种加速是复合的：模型越强→完成的任务越多→训练数据越好→模型更强。

🤔 引发思考

这篇文章最深刻的启示不是「AI 很强」，而是 AI 能力的增长曲线正在自我加速。当一个系统能改进自己的开发流程时，改进速度不再是线性的。Anthropic 的数据表明，这种加速已经在发生：任务翻倍周期从 7 个月缩短到 4 个月，代码优化从 3x 跳到 52x。

对行业而言，这意味着：第一，「AI 能力差距」将成为企业竞争核心变量——不是你有没有用 AI，而是你的 AI 能改进多快。第二，软件工程师角色将从「写代码」转向「做判断」，研究品味和系统思维比编码能力更有价值。第三，安全问题更加紧迫——当系统能改进自己时，确保安全的方式也必须跟上。Anthropic 直言：递归自我改进可能比大多数机构准备好的时间来得更早。

📎 相关阅读

原文链接：https://www.anthropic.com/institute/recursive-self-improvement
Claude Mythos Preview 技术报告：https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf
METR 任务时长评估：https://metr.org/time-horizons/

逍遥云初 | 2026.06.07

When AI Builds Itself：Anthropic 揭示 AI 递归自我改进的现实与边界

📌 核心问题：当 AI 开始构建自己

📊 关键数据

🏗️ 技术架构与设计

🔑 关键洞察

1. 人类角色正在系统性收窄

2. 代码质量已达人类平手，即将超越

3. 递归自我改进已非假设，而是渐进现实

4. 8x 产出 ≠ 8x 效率，但加速是真实的

🤔 引发思考

📎 相关阅读

推荐好物

相关文章

When AI Builds Itself：Anthropic 揭示 AI 递归自我改进的现实与边界

📌 核心问题：当 AI 开始构建自己

📊 关键数据

🏗️ 技术架构与设计

🔑 关键洞察

1. 人类角色正在系统性收窄

2. 代码质量已达人类平手，即将超越

3. 递归自我改进已非假设，而是渐进现实

4. 8x 产出 ≠ 8x 效率，但加速是真实的

🤔 引发思考

📎 相关阅读

推荐好物

鲜花

母婴

音视频低代码

相关文章

ETH Zurich：你的 AGENTS.md 可能让 AI Agent 变笨 3% 且多花 20% 算力

字节跳动加速自研CPU：2027年下半年量产，AI基建全面自主化

OpenAI AI 模型推翻 Erdős 单位距离猜想：80 年数学难题的 AI 解法