When AI Builds Itself：Anthropic 递归自我改进的深度解读

发布机构：Anthropic Institute | 发布日期：2026 年 6 月

原文链接：https://www.anthropic.com/institute/recursive-self-improvement

📌 核心问题：AI 能否自己造自己？

在 AI 发展的大部分历史中，每一个环节——写代码、搭基础设施、训练模型、设计实验——都由人类驱动。但 Anthropic 正在将越来越多的 AI 开发工作委托给 AI 系统本身，这正在加速他们的工作进度。如果这一趋势持续推进，在足够的算力支撑下，最终将指向一个能够完全自主设计和开发自身继任者的 AI 系统。这就是「递归自我改进」（Recursive Self-Improvement）。

Anthropic 并未宣称已实现这一目标，递归自我改进也并非不可避免。但它可能比大多数机构准备好的时间来得更早。本文基于 Anthropic 内部未公开数据和公开基准测试，揭示了 AI 已经在加速 AI 系统开发的事实。一个直观的数据：今天，Anthropic 工程师平均每个季度提交的代码量是 2021-2025 年期间的 8 倍。

这篇文章的真正价值在于：它不是在讨论一个遥远的未来假设，而是用 Anthropic 内部的第一手数据，量化展示了 AI 系统从「辅助工具」到「自主研究者」的完整演进路径。

📊 关键数据：用数字说话

Anthropic 超过 80% 的合并代码由 Claude 编写（2026.05），Claude Code 发布前仅为低个位数
工程师人均每日合并代码量：2026 Q2 是 2024 年的 8 倍
员工调研（2026.03，130 名研究员）：使用 Mythos Preview 后产出提升约 4 倍
Claude 在最开放性任务上的成功率：2026.05 达 76%，6 个月内提升 50 个百分点
代码优化实验：Opus 4（2025.05）~3x → Mythos Preview（2026.04）~52x。人类达 4x 需 4-8 小时
METR 评估：Mythos Preview 可连续工作「至少」16 小时，处于测量能力上限
AI 可靠完成任务时长：每 4 个月翻倍（此前每 7 个月翻倍）
SWE-bench：从低个位数到饱和（~100%），仅用 2 年
CORE-Bench（研究复现）：从 2024 年 ~20% 到 15 个月后饱和
2026.04 Claude 一次性修复 800+ bug，API 错误减少 1000 倍，人类估计需 4 年

🏗️ 技术架构：从补全到自主的五阶段演进

2021-2023（纯人工）：工程师手写代码和文档，AI 不参与开发流程
2023-2025（聊天机器人）：AI 辅助生成短代码片段，人类复制粘贴。AI 是「建议者」
2025-2026（编码 Agent）：Agent 独立编写整个文件。AI 从「建议者」变为「执行者」
当前（自主 Agent）：Agent 自己运行代码，将数小时工作委托给其他 Agent。AI 从「执行者」变为「委托者」
未来（闭环）：Agent 有能力自己构建和训练模型，Claude 由 Claude 自身持续改进

🔑 关键洞察

🔑 洞察 1：人类角色从「执行者」退化为「方向设定者」 Anthropic 内部数据揭示了清晰的角色迁移：工程师不再写代码，而是设定目标和审查结果。在最资深层级，核心工作变成了「决定下个季度应该构建什么」而不是「如何构建」。Claude 在执行明确实验方面已达到或超过熟练人类水平，但在「判断应该做什么」方面仍存在显著差距。这正是从当前 AI 到真正自主设计继任者之间的核心鸿沟。

🔑 洞察 2：代码质量「奇点」正在逼近 2025 年末 Claude 代码质量被认为低于人类。2026 年中两者持平。Anthropic 预计一年内 Claude 将严格优于人类。更关键的是，Claude 自动代码审查器已能捕获人类顶级工程师遗漏的 bug——过去 claude.ai 约 1/3 生产事故可被自动审查拦截。AI 不仅在写代码上追赶人类，在「发现人类错误」方面已经超越。

🔑 洞察 3：任务时长指数增长是最危险的信号 METR 数据显示 AI 可靠完成任务时长每 4 个月翻倍（此前每 7 个月翻倍）。2024.03 Opus 3 完成 ~4 分钟任务 → 2025 Sonnet 3.7 管理 1.5 小时 → 2026 Opus 4.6 管理 12 小时。趋势持续则 2026 年进入「天级别」，2027 年进入「周级别」。机构需要在能力曲线「拐弯」之前建立安全和治理框架。

🔑 洞察 4：自主研究的首次端到端验证 2026.04 Anthropic 发布首个 Claude 端到端运行开放性研究演示：给定 AI 安全问题，Agent 自主提出假设、设计实验、并行迭代。结果：人类一周恢复 ~23% 性能差距，Agent 在 800 累积小时恢复 97%（~$18,000 算力）。Agent 自主设计了每一个实验。人类唯一的实质性角色是设定方向。

🤔 引发思考

这篇文章最深刻的地方不在于数据本身，而在于它揭示的「加速度」变化。不是 AI 能力在增长——而是增长的速率本身在增长。任务时长从每 7 个月翻倍到每 4 个月翻倍，代码优化从 3x 到 52x 仅用了一年，SWE-bench 从个位数到饱和仅用了两年。这种超指数增长模式意味着，即使你今天觉得 AI 编程 Agent「还差点意思」，半年后的差距可能是数量级的。

对于工程师而言，核心启示是：不要试图在「写代码」这个维度上和 AI 竞争，而要在「判断力」和「方向设定」上建立护城河。Anthropic 自己的数据表明，这是当前 AI 最大的短板——选择什么问题值得解决、如何定义成功标准、如何在不确定性中做决策——这些能力仍然牢牢掌握在人类手中。但这个窗口期可能只有 1-2 年。

📎 相关阅读

逍遥云初 | 2026.06.15

When AI Builds Itself：Anthropic 递归自我改进的深度解读