当 AI 构建自身:Anthropic 递归自我改进的深度解读
📖 原文:When AI builds itself | 来源:Anthropic Institute | 发布:2026年6月
📌 核心问题
Anthropic 发表重磅长文,首次系统性披露 AI 系统正在加速 AI 自身开发的内部数据。递归自我改进(Recursive Self-Improvement)正在发生,而且比大多数人预期的更快。
AI 系统自主完成任务的能力正在以指数级速度提升。可靠完成任务的时长大约每 4 个月翻倍。Claude Opus 3(2024年3月)能完成人类约 4 分钟的软件任务;Claude Sonnet 3.7 能完成约 1.5 小时的任务;Claude Opus 4.6 能完成 12 小时的任务。2026 年内 AI 可能完成需要人类数天的工作,2027 年可能达到数周级别。
📊 关键数据
- Anthropic 工程师 2026 Q2 代码量是 2021-2025 年的 8 倍
- 超过 80% 代码由 Claude 编写(2025 年初仅低个位数)
- SWE-bench 从低个位数到两年内饱和(接近 100%)
- CORE-Bench 研究复现能力从 2024 年 20% 到 15 个月后饱和
- 代码优化:Opus 4(2025年5月)3x → Mythos Preview(2026年4月)52x 加速
- 开放性任务成功率:2026年5月达 76%,6个月内提升 50 个百分点
🏗️ 技术架构与设计
- 四阶段演进:纯人工编码 → 聊天机器人辅助 → 编码 Agent → 自主 Agent
- 能力分级:明确问题 → 开放性目标 → 战略方向。Claude 前两级已超越人类,第三级仍有差距
- 自动化代码审查可捕获约 1/3 历史生产事故 bug
- 端到端研究:人类一周恢复 23% 性能差距,Agent 800 小时内恢复 97%
- Claude 2 小时完成人类 2-3 天的调试工作
🔑 关键洞察
💡 引发思考
Anthropic 这篇文章最值得注意的不是技术数据,而是发布者身份——一家前沿 AI 公司主动公开自己的 AI 正在加速 AI 开发。80% 代码由 Claude 编写意味着深度自举,自动审查系统本身也是 Claude,形成 AI 监督 AI 的递归结构。
对行业而言,执行层已不是竞争焦点。真正的差异化在于判断层:谁能最好地帮助 AI 决定做什么。Harness Engineering、Spec Coding 等方法论本质上都是在为 AI 提供更好的判断框架。未来的开发者不是写代码的人,而是能最有效地给 AI 指明方向的人。
📎 相关阅读
Dario Amodei - Machines of Loving Grace
Anthropic Automated W2S Researcher
逍遥云初 | 2026.06.26






