When AI Builds Itself:Anthropic 递归自我改进的深度解读

发布机构:Anthropic Institute | 发布日期:2026 年 6 月

原文链接:https://www.anthropic.com/institute/recursive-self-improvement


📌 核心问题:AI 能否自己造自己?

在 AI 发展的大部分历史中,每一个环节——写代码、搭基础设施、训练模型、设计实验——都由人类驱动。但 Anthropic 正在将越来越多的 AI 开发工作委托给 AI 系统本身,这正在加速他们的工作进度。如果这一趋势持续推进,在足够的算力支撑下,最终将指向一个能够完全自主设计和开发自身继任者的 AI 系统。这就是「递归自我改进」(Recursive Self-Improvement)。

Anthropic 并未宣称已实现这一目标,递归自我改进也并非不可避免。但它可能比大多数机构准备好的时间来得更早。本文基于 Anthropic 内部未公开数据和公开基准测试,揭示了 AI 已经在加速 AI 系统开发的事实。一个直观的数据:今天,Anthropic 工程师平均每个季度提交的代码量是 2021-2025 年期间的 8 倍。

这篇文章的真正价值在于:它不是在讨论一个遥远的未来假设,而是用 Anthropic 内部的第一手数据,量化展示了 AI 系统从「辅助工具」到「自主研究者」的完整演进路径。


📊 关键数据:用数字说话

  • Anthropic 超过 80% 的合并代码由 Claude 编写(2026.05),Claude Code 发布前仅为低个位数
  • 工程师人均每日合并代码量:2026 Q2 是 2024 年的 8 倍
  • 员工调研(2026.03,130 名研究员):使用 Mythos Preview 后产出提升约 4 倍
  • Claude 在最开放性任务上的成功率:2026.05 达 76%,6 个月内提升 50 个百分点
  • 代码优化实验:Opus 4(2025.05)~3x → Mythos Preview(2026.04)~52x。人类达 4x 需 4-8 小时
  • METR 评估:Mythos Preview 可连续工作「至少」16 小时,处于测量能力上限
  • AI 可靠完成任务时长:每 4 个月翻倍(此前每 7 个月翻倍)
  • SWE-bench:从低个位数到饱和(~100%),仅用 2 年
  • CORE-Bench(研究复现):从 2024 年 ~20% 到 15 个月后饱和
  • 2026.04 Claude 一次性修复 800+ bug,API 错误减少 1000 倍,人类估计需 4 年

🏗️ 技术架构:从补全到自主的五阶段演进

  • 2021-2023(纯人工):工程师手写代码和文档,AI 不参与开发流程
  • 2023-2025(聊天机器人):AI 辅助生成短代码片段,人类复制粘贴。AI 是「建议者」
  • 2025-2026(编码 Agent):Agent 独立编写整个文件。AI 从「建议者」变为「执行者」
  • 当前(自主 Agent):Agent 自己运行代码,将数小时工作委托给其他 Agent。AI 从「执行者」变为「委托者」
  • 未来(闭环):Agent 有能力自己构建和训练模型,Claude 由 Claude 自身持续改进

🔑 关键洞察

🔑 洞察 1:人类角色从「执行者」退化为「方向设定者」 Anthropic 内部数据揭示了清晰的角色迁移:工程师不再写代码,而是设定目标和审查结果。在最资深层级,核心工作变成了「决定下个季度应该构建什么」而不是「如何构建」。Claude 在执行明确实验方面已达到或超过熟练人类水平,但在「判断应该做什么」方面仍存在显著差距。这正是从当前 AI 到真正自主设计继任者之间的核心鸿沟。
🔑 洞察 2:代码质量「奇点」正在逼近 2025 年末 Claude 代码质量被认为低于人类。2026 年中两者持平。Anthropic 预计一年内 Claude 将严格优于人类。更关键的是,Claude 自动代码审查器已能捕获人类顶级工程师遗漏的 bug——过去 claude.ai 约 1/3 生产事故可被自动审查拦截。AI 不仅在写代码上追赶人类,在「发现人类错误」方面已经超越。
🔑 洞察 3:任务时长指数增长是最危险的信号 METR 数据显示 AI 可靠完成任务时长每 4 个月翻倍(此前每 7 个月翻倍)。2024.03 Opus 3 完成 ~4 分钟任务 → 2025 Sonnet 3.7 管理 1.5 小时 → 2026 Opus 4.6 管理 12 小时。趋势持续则 2026 年进入「天级别」,2027 年进入「周级别」。机构需要在能力曲线「拐弯」之前建立安全和治理框架。
🔑 洞察 4:自主研究的首次端到端验证 2026.04 Anthropic 发布首个 Claude 端到端运行开放性研究演示:给定 AI 安全问题,Agent 自主提出假设、设计实验、并行迭代。结果:人类一周恢复 ~23% 性能差距,Agent 在 800 累积小时恢复 97%(~$18,000 算力)。Agent 自主设计了每一个实验。人类唯一的实质性角色是设定方向。

🤔 引发思考

这篇文章最深刻的地方不在于数据本身,而在于它揭示的「加速度」变化。不是 AI 能力在增长——而是增长的速率本身在增长。任务时长从每 7 个月翻倍到每 4 个月翻倍,代码优化从 3x 到 52x 仅用了一年,SWE-bench 从个位数到饱和仅用了两年。这种超指数增长模式意味着,即使你今天觉得 AI 编程 Agent「还差点意思」,半年后的差距可能是数量级的。

对于工程师而言,核心启示是:不要试图在「写代码」这个维度上和 AI 竞争,而要在「判断力」和「方向设定」上建立护城河。Anthropic 自己的数据表明,这是当前 AI 最大的短板——选择什么问题值得解决、如何定义成功标准、如何在不确定性中做决策——这些能力仍然牢牢掌握在人类手中。但这个窗口期可能只有 1-2 年。


📎 相关阅读


逍遥云初 | 2026.06.15