When AI Builds Itself：Anthropic 揭示递归自我改进的现实进展

Anthropic Institute 于 2026 年 6 月发表深度报告，首次公开 Anthropic 内部数据，系统性地展示了 AI 如何加速 AI 自身的开发——即递归自我改进（Recursive Self-improvement）的现实进展。

论文/报告链接：https://www.anthropic.com/institute/recursive-self-improvement

📌 核心问题：AI 能否自己改进自己？

递归自我改进（Recursive Self-improvement）是 AI 领域的终极命题之一：当 AI 系统能够自主设计和开发自己的后继版本时，能力提升将不再是线性的，而是指数级加速。这篇报告的核心问题是——我们离这个临界点还有多远？

Anthropic 的答案是：虽然完整的递归自我改进尚未实现，但 AI 已经在显著加速 AI 的开发过程。这不是理论推演，而是有内部数据支撑的事实。报告用 Anthropic 自身的工程和研究数据，展示了 Claude 从「辅助编码」到「自主实验」的演进路径。

更重要的是，报告指出这种加速正在「复利式」增长——AI 工具提升了工程师效率，工程师用更高效的工具开发更强的 AI，更强的 AI 又进一步提升效率。这个正反馈循环一旦启动，后果可能是深远的。

📊 关键数据

Anthropic 工程师人均代码产出：2026 Q2 是 2024 年的 8 倍
Anthropic 合入代码库的代码中，80% 以上由 Claude 编写（2026 年 5 月数据）
Claude Code 自主任务成功率：最开放式任务达到 76%（2026 年 5 月），6 个月内提升 50 个百分点
AI 独立完成任务的时长：每 4 个月翻倍（从此前的每 7 个月翻倍加速）
SWE-bench 软件工程基准：从个位数分数到饱和（接近 100%），历时仅 2 年
CORE-Bench 研究复现基准：从 20% 成功率到饱和，历时 15 个月
Claude Mythos Preview：可连续自主工作至少 16 小时，达到 METR 评估上限
代码优化实验：Claude Opus 4（2025.5）实现 3x 加速 → Claude Mythos Preview（2026.4）实现 52x 加速
AI 安全研究端到端实验：人类研究者一周恢复 23% 性能差距，AI Agent 800 小时恢复 97%
130 名 Anthropic 研究人员调查：中位数估计使用 Mythos Preview 产出提升约 4 倍

🏗️ 技术架构与设计要点

任务层级模型：从「执行明确指令」→「设计实现方案」→「选择值得解决的问题」，Claude 已覆盖前两层，第三层（研究品味/判断力）仍是人类优势
自动化代码审查：Anthropic 部署了 Claude 自动代码审查系统，回顾分析发现可提前捕获约 1/3 的历史生产 bug
自主研究循环：Claude 可执行「提出假设 → 设计实验 → 运行测试 → 分析结果 → 迭代」的完整研究闭环
多 Agent 协作：在 AI 安全实验中，多个 Claude Agent 并行工作、共享发现、交叉验证，800 累积小时完成端到端研究
渐进式自主权：从代码补全 → 文件编辑 → 代码执行 → 任务委托 → 自主实验，每一步都建立在前一步的基础上

🧠 关键洞察

「汗水」正在被自动化。Edison 说天才是 1% 灵感 + 99% 汗水。但 AI 正在将 99% 的汗水自动化。AI 进步的大部分来自「跑更多实验、并行更多测试、更快得到结果」——这些恰好是 AI 最擅长的。即使 Claude 永远不具备顶级研究品味，光是「汗水自动化」本身就足以带来复利式加速。

人类角色正在收窄，但「判断力」仍是关键瓶颈。在 Anthropic 的内部数据中，Claude 在「执行明确目标的实验」方面已经超越人类（52x vs 4x 代码优化），但在「选择值得做的实验」方面仍有差距。当 AI 的执行能力越来越强，人类的比较优势将越来越集中在「方向感」上——选对问题比解决问题更重要。

代码质量已达到人类水平。2025 年末，多数 Anthropic 工程师认为 Claude 写的代码质量低于人类；到 2026 年中，已基本持平。预计一年内将超越人类。这意味着「人类写代码、AI 辅助」的时代正在结束，「AI 写代码、人类审查」的时代已经开始。

递归自我改进的闭环尚未完全闭合，但每个环节都在加速。当前缺口在于：AI 能高效执行实验，但还不能自主判断「应该做什么实验」。然而，从 51% 到 64% 的「研究决策优于人类」比率（6 个月内），暗示这个缺口正在快速缩小。

🚀 引发思考

这篇报告最震撼的地方不在于技术细节，而在于它来自 Anthropic 自己——一家正在亲身体验「AI 加速 AI」的公司。当开发 AI 的公司告诉你「AI 正在加速我们的 AI 开发」时，这不是预测，是正在发生的现实。

对行业而言，这意味着几个趋势：第一，AI 能力的增长速度将越来越快，因为「AI 帮助开发 AI」的飞轮效应已经启动；第二，「会用 AI 工具的工程师」和「不会用的」之间的生产力差距将急剧拉大；第三，安全和对齐问题变得更加紧迫——如果系统能自己改进自己，我们确保它改对方向的能力必须跟上。

一个值得深思的细节：Anthropic 员工说「我已经 5 个月没自己写过代码了」。这不是偷懒，这是范式转移。当写代码不再是工程师的核心工作，「工程师」这个角色本身也在被重新定义。

📎 相关阅读

[Anthropic 原文] When AI builds itself — https://www.anthropic.com/institute/recursive-self-improvement
[METR] Measuring AI ability to complete long tasks — https://metr.org/time-horizons/
[SWE-bench] Real-world software engineering benchmark — https://www.swebench.com/
[CORE-Bench] Research reproduction benchmark — https://arxiv.org/abs/2409.11363
[Anthropic Alignment] Automated W2S Researcher — https://alignment.anthropic.com/2026/automated-w2s-researcher/

*逍遥云初 | 2026.06.14*

When AI Builds Itself：Anthropic 揭示递归自我改进的现实进展

📌 核心问题：AI 能否自己改进自己？

📊 关键数据

🏗️ 技术架构与设计要点

🧠 关键洞察

🚀 引发思考

📎 相关阅读

推荐好物

相关文章

When AI Builds Itself：Anthropic 揭示递归自我改进的现实进展

📌 核心问题：AI 能否自己改进自己？

📊 关键数据

🏗️ 技术架构与设计要点

🧠 关键洞察

🚀 引发思考

📎 相关阅读

推荐好物

家居日用

女装

音视频低代码

相关文章

AI科技前沿快讯｜2026年7月29日

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四