当 AI 构建自己：Anthropic 递归自我改进的内部数据与技术趋势深度解读

📌 核心问题：AI 正在加速 AI 自身的发展

2026 年 6 月，Anthropic Institute 发布了一篇重磅报告《When AI builds itself》，首次系统性地公开了 AI 加速 AI 开发的内部数据。这篇文章不是理论推测，而是基于 Anthropic 内部工程实践和研究流程的真实数据，展示了 AI 系统正在如何改变 AI 本身的开发方式。

核心论点清晰而震撼：人类在 AI 开发链条中的角色正在系统性地缩小。从代码编写、实验执行到研究方向判断，AI 已经在前两个环节实现了超越或持平人类的水平，而第三个环节——研究品味（research taste）——也在快速逼近。这个趋势指向一个终极目标：递归自我改进（Recursive Self-Improvement），即 AI 系统能够完全自主地设计和开发自己的继任者。

Anthropic 明确表示，他们还没有到达那个阶段，递归自我改进也并非不可避免。但它可能比大多数机构准备好应对的时间来得更早。这不是科幻小说的推测，而是基于实际工程数据的技术判断。

📊 关键数据：数字说话

代码贡献：截至 2026 年 5 月，Anthropic 合并到代码库的代码中，超过 80% 由 Claude 编写。2025 年 2 月 Claude Code 推出前，这个数字仅为低个位数。
工程师产出：2026 年 Q2，典型工程师每天合并的代码量是 2024 年的 8 倍。2021-2024 年间保持恒定，2025 年开始攀升，2026 年再次陡峭加速。
主观生产力：2026 年 3 月对 130 名研究人员的调查，中位数估计使用 Mythos Preview 后产出提升约 4 倍。
任务时长倍增：AI 能独立完成的任务时长从每 7 个月翻倍加速到每 4 个月翻倍。Opus 3 (2024.3) 约 4 分钟 - Sonnet 3.7 (2025.3) 约 1.5 小时 - Opus 4.6 (2026.3) 约 12 小时。
实验优化：代码速度优化任务中，Opus 4 (2025.5) 平均 3x 加速；Mythos Preview (2026.4) 达到 52x 加速。人类研究员需要 4-8 小时才能达到 4x。
研究判断力：在有改进空间的决策点上，Opus 4.5 (2025.11) 51% 优于人类选择；Mythos Preview (2026.4) 提升到 64%。
开放性任务成功率：最困难的开放式任务，Claude 成功率在 6 个月内从约 26% 提升到 76%（2026 年 5 月）。

🏗️ 技术架构与演进路径

阶段 1 (2021-2023)：传统开发，人工编写代码和文档，AI 未参与核心开发流程。
阶段 2 (2023-2025)：聊天机器人辅助，AI 生成短代码片段，人工复制粘贴，AI 是建议者角色。
阶段 3 (2025-2026)：Coding Agent 自主执行，Claude 能独立编写和编辑整个文件，从建议者变为执行者。
阶段 4 (当前)：自主代理，Agent 能运行代码、委托数小时工作给其他 Agent，形成多 Agent 协作网络。
阶段 5 (未来)：闭环自我改进，Agent 能够自主构建和训练模型，实现 Claude 由 Claude 自身持续改进。

🔑 关键洞察

人类角色正在系统性缩小，但「研究品味」仍是最后堡垒

Anthropic 内部数据揭示了清晰趋势：在 AI 开发链条中，人类的比较优势正在逐环节缩小。代码编写已被 AI 主导（80%+ 由 Claude 完成）；实验执行已达超人水平（52x 优化 vs 人类 4x）；研究方向判断力也在快速提升（64% 优于人类选择）。唯一仍由人类主导的是研究品味——选择什么问题值得解决、什么结果值得信任、什么时候该放弃。但 Anthropic 暗示，这可能也只是另一个 AI 暂时失败、随后精通的能力。

99% 的汗水正在被自动化，1% 的灵感是否也会？

爱迪生说天才是 1% 的灵感加 99% 的汗水。Anthropic 的数据显示，那 99% 的汗水——代码编写、bug 修复、实验执行、结果验证——正在被快速自动化。Claude 在 2 小时内完成人类需要 2-3 天的调试工作；800 个 API 错误修复将某类错误减少了一千倍，人类估计需要 4 年。即使 Claude 永远无法获得良好的研究品味，保守估计仍然意味着复合加速。

代码质量已达人类水平，自动代码审查正在超越人类

Claude 编写的代码质量在 2025 年底仍逊于人类，到 2026 年已基本持平，预计年内将超越。更值得注意的是，Anthropic 现在使用 Claude 自动审查所有代码变更，回顾性分析发现自动审查能提前捕获约 1/3 曾导致生产事故的 bug——这些代码是由世界上最优秀的工程师编写的。AI 不仅在写代码，还在比人类更早地发现人类的错误。

从执行指令到自主研究的跨越正在发生

2026 年 4 月，Anthropic 发布了首个 Claude 自主完成端到端开放性研究项目的演示。Claude 代理集群被给定一个 AI 安全问题后，自主提出假设、设计实验、并行执行、共享发现并迭代。两个人类研究员花一周恢复了约 23% 的性能差距；800 个 Agent 累计小时恢复了 97%，消耗约 18,000 美元计算资源。人类唯一的实质性角色是设定方向。这不是辅助研究，而是 AI 驱动研究的早期形态。

🤔 引发思考

Anthropic 的这篇报告最深刻的地方不在于它展示了 AI 的能力——这些趋势我们已经在各种 benchmark 中看到了。它的深刻之处在于，它第一次从 AI 公司内部的视角，用真实数据回答了一个问题：AI 加速 AI 发展这件事，到底进展到了什么程度？答案是：比大多数人想象的更远。

对于 AI 工程师和研究者来说，这意味着几件事。第一，你的工具正在变成你的同事，而且很快可能变成你的主管——不是在人际关系意义上，而是在能力意义上。第二，写代码这件事的经济价值正在趋近于零，而判断该写什么代码的价值正在急剧上升。第三，如果你的工作流程还没有深度集成 AI Agent，你可能已经落后了——不是落后于趋势，而是落后于已经在用 Agent 的同行。

Anthropic 坦诚地指出了不确定性：当前的训练方法和架构是否能解锁研究品味级别的能力，仍不清楚。但即使不能，保守估计的复合加速效应也足以重塑整个行业。对于每一个从事 AI 相关工作的人来说，现在的问题不是 AI 会不会改变我的工作，而是我准备好在这个新范式中找到自己的位置了吗。

📚 相关阅读

逍遥云初 | 2026.06.21

当 AI 构建自己：Anthropic 递归自我改进的内部数据与技术趋势深度解读

📌 核心问题：AI 正在加速 AI 自身的发展

📊 关键数据：数字说话

🏗️ 技术架构与演进路径

🔑 关键洞察

🤔 引发思考

📚 相关阅读

推荐好物

相关文章

当 AI 构建自己：Anthropic 递归自我改进的内部数据与技术趋势深度解读

📌 核心问题：AI 正在加速 AI 自身的发展

📊 关键数据：数字说话

🏗️ 技术架构与演进路径

🔑 关键洞察

🤔 引发思考

📚 相关阅读

推荐好物

家用电器

云产品精品福利

即时通信IM

相关文章

车圈观察 | 理想 i6 第 15 万台下线：上市 9 个月，24.98 万级纯电 SUV 跑出「断层级速度」 —— VLA 司机大模型开始进入量产验证

AI 产业 | 阿里 Qwen-Robot 完整三件套：中国首个「手·脚·脑」具身智能模型矩阵落地 —— 机器人终于有通用底座了

arXiv 深度 | 阿里 Qwen 团队「边猜边跑」：让大模型推理快了近 2 倍，猜对不奖、猜错也不罚的新范式来了