📌 核心问题:AI 能否自我改进?

Anthropic 发布深度研究报告「When AI builds itself」,首次公开大量内部数据,揭示了一个正在发生的趋势:AI 系统正在加速 AI 系统自身的开发。报告基于 Anthropic 工程师的实际生产力数据、公开基准测试成绩、以及 Claude 在研究实验中的表现,系统性地论证了「递归自我改进」(Recursive Self-improvement)已从理论走向现实的第一步。

这不是一篇营销软文。Anthropic 披露了未公开的内部指标:截至 2026 年 5 月,超过 80% 合并到 Anthropic 代码库的代码由 Claude 编写;工程师人均每季度代码产出是 2021-2025 年的 8 倍;在开放式复杂任务上,Claude 的成功率在六个月内从 26% 飙升至 76%。这些数据清晰地勾勒出 AI 辅助开发的拐点——从「人写代码 AI 补全」到「AI 写代码人审查」的范式跃迁。

报告的核心张力在于:AI 在执行层面已经接近或超越人类,但在判断层面(选择做什么、为什么做)仍有显著差距。这个差距正是通往完全自主递归自我改进的最后一道门槛。


📊 关键数据

  • SWE-bench(软件工程基准):模型得分从个位数飙升至接近饱和,仅用两年
  • CORE-Bench(研究复现基准):AI 系统复现成功率从 2024 年的 ~20% 升至 15 个月后接近饱和
  • METR 长任务基准:Claude Mythos Preview 可持续工作至少 16 小时,达到 METR 测量上限
  • 任务时长翻倍周期:从每 7 个月缩短到每 4 个月——2024 年 3 月 Opus 3 完成 4 分钟任务,2025 年 3 月 Sonnet 3.7 完成 1.5 小时任务,2026 年 Opus 4.6 完成 12 小时任务
  • 代码优化实验:Opus 4(2025.05)平均 3x 加速 → Mythos Preview(2026.04)达到 52x 加速;人类研究员需 4-8 小时才能达到 4x
  • 开放式任务成功率:六个月内从 26% 提升至 76%(+50 个百分点)
  • 安全研究:弱监督强模型实验中,人类研究员一周恢复 23% 差距,Claude Agent 800 小时恢复 97%

🏗️ 技术架构与演进路径

  • 阶段一(2021-2023):传统开发,工程师手动编写所有代码和文档
  • 阶段二(2023-2025):Chatbot 辅助,工程师用 Claude 生成代码片段后复制粘贴到编辑器
  • 阶段三(2025-2026):Coding Agent,Claude 可独立编写和编辑完整文件
  • 阶段四(Today):自主 Agent,Claude 可运行代码、将数小时工作委派给其他 Agent
  • 阶段五(未来):闭环——Agent 有能力自行构建和训练模型,实现持续自我改进

🔑 关键洞察

执行层 vs 判断层的不对称:Claude 在「给定目标后如何实现」上已接近或超越人类,但在「选择什么目标」上仍有显著差距。这定义了当前 AI 能力的真实边界——不是执行力不够,而是方向感不足。
代码质量正在翻转:2025 年底 Claude 代码质量被认为「略逊于人类」,2026 年中已「大致持平」,预计年内将「明确超越」。质量的衡量标准不仅是「能不能跑」,还有「其他工程师能否理解和在此基础上构建」。
自动化代码审查已超人类:Claude 自动审查器能发现过去顶级工程师遗漏的 bug——在对 claude.ai 历史变更的回顾分析中,约 1/3 的生产事故 bug 本可被 Claude 审查器拦截。
递归自我改进的安全悖论:AI 加速 AI 开发意味着安全风险也在加速。如果系统能完全自主构建后继者,我们对它们的保护、监控和行为塑造方式将变得前所未有地重要。Anthropic 坦承「这可能比大多数机构准备好的更快到来」。

💡 引发思考

这篇报告最重要的信号不是「Claude 有多强」,而是「AI 开发的加速曲线本身在加速」。当一个前沿 AI 实验室公开承认 80% 的代码由自家模型编写、工程师人均产出 8 倍提升时,我们面对的不再是「AI 辅助」而是「AI 主导」。这意味着软件工程的核心能力正在从「写代码」转向「审代码」和「定方向」——前者正在被 AI 吞噬,后者仍需人类判断。

更深层的问题是安全治理。Anthropic 作为一家以安全著称的公司,主动披露这些数据本身就是一种负责任的姿态。但报告也暗示了一个令人不安的事实:递归自我改进可能不是「是否发生」的问题,而是「何时发生」的问题。当 AI 能够完全自主设计自己的后继者时,我们现有的安全框架是否还能 hold 住?这不是科幻,而是正在逼近的工程现实。


📎 相关阅读

  • [When AI builds itself - Anthropic](https://www.anthropic.com/institute/recursive-self-improvement)
  • [METR Time Horizons 测量](https://metr.org/time-horizons/)
  • [Automated Weak-to-Strong Research](https://alignment.anthropic.com/2026/automated-w2s-researcher/)
  • [Claude Mythos Preview 技术报告](https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf)

*逍遥云初 | 2026.06.18*