📌 核心问题:AI 能否自我改进?
Anthropic 发布深度研究报告「When AI builds itself」,首次公开大量内部数据,揭示了一个正在发生的趋势:AI 系统正在加速 AI 系统自身的开发。报告基于 Anthropic 工程师的实际生产力数据、公开基准测试成绩、以及 Claude 在研究实验中的表现,系统性地论证了「递归自我改进」(Recursive Self-improvement)已从理论走向现实的第一步。
这不是一篇营销软文。Anthropic 披露了未公开的内部指标:截至 2026 年 5 月,超过 80% 合并到 Anthropic 代码库的代码由 Claude 编写;工程师人均每季度代码产出是 2021-2025 年的 8 倍;在开放式复杂任务上,Claude 的成功率在六个月内从 26% 飙升至 76%。这些数据清晰地勾勒出 AI 辅助开发的拐点——从「人写代码 AI 补全」到「AI 写代码人审查」的范式跃迁。
报告的核心张力在于:AI 在执行层面已经接近或超越人类,但在判断层面(选择做什么、为什么做)仍有显著差距。这个差距正是通往完全自主递归自我改进的最后一道门槛。
📊 关键数据
- SWE-bench(软件工程基准):模型得分从个位数飙升至接近饱和,仅用两年
- CORE-Bench(研究复现基准):AI 系统复现成功率从 2024 年的 ~20% 升至 15 个月后接近饱和
- METR 长任务基准:Claude Mythos Preview 可持续工作至少 16 小时,达到 METR 测量上限
- 任务时长翻倍周期:从每 7 个月缩短到每 4 个月——2024 年 3 月 Opus 3 完成 4 分钟任务,2025 年 3 月 Sonnet 3.7 完成 1.5 小时任务,2026 年 Opus 4.6 完成 12 小时任务
- 代码优化实验:Opus 4(2025.05)平均 3x 加速 → Mythos Preview(2026.04)达到 52x 加速;人类研究员需 4-8 小时才能达到 4x
- 开放式任务成功率:六个月内从 26% 提升至 76%(+50 个百分点)
- 安全研究:弱监督强模型实验中,人类研究员一周恢复 23% 差距,Claude Agent 800 小时恢复 97%
🏗️ 技术架构与演进路径
- 阶段一(2021-2023):传统开发,工程师手动编写所有代码和文档
- 阶段二(2023-2025):Chatbot 辅助,工程师用 Claude 生成代码片段后复制粘贴到编辑器
- 阶段三(2025-2026):Coding Agent,Claude 可独立编写和编辑完整文件
- 阶段四(Today):自主 Agent,Claude 可运行代码、将数小时工作委派给其他 Agent
- 阶段五(未来):闭环——Agent 有能力自行构建和训练模型,实现持续自我改进
🔑 关键洞察
💡 引发思考
这篇报告最重要的信号不是「Claude 有多强」,而是「AI 开发的加速曲线本身在加速」。当一个前沿 AI 实验室公开承认 80% 的代码由自家模型编写、工程师人均产出 8 倍提升时,我们面对的不再是「AI 辅助」而是「AI 主导」。这意味着软件工程的核心能力正在从「写代码」转向「审代码」和「定方向」——前者正在被 AI 吞噬,后者仍需人类判断。
更深层的问题是安全治理。Anthropic 作为一家以安全著称的公司,主动披露这些数据本身就是一种负责任的姿态。但报告也暗示了一个令人不安的事实:递归自我改进可能不是「是否发生」的问题,而是「何时发生」的问题。当 AI 能够完全自主设计自己的后继者时,我们现有的安全框架是否还能 hold 住?这不是科幻,而是正在逼近的工程现实。
📎 相关阅读
- [When AI builds itself - Anthropic](https://www.anthropic.com/institute/recursive-self-improvement)
- [METR Time Horizons 测量](https://metr.org/time-horizons/)
- [Automated Weak-to-Strong Research](https://alignment.anthropic.com/2026/automated-w2s-researcher/)
- [Claude Mythos Preview 技术报告](https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf)
*逍遥云初 | 2026.06.18*






