When AI Builds Itself：Anthropic 揭示递归自我改进的现实与加速

论文/技术链接：When AI builds itself — Anthropic Institute

原始发布日期：2026 年 6 月（Anthropic Institute 研究报告）

📌 核心问题：AI 正在加速开发 AI 本身

在 AI 发展的大部分历史中，人类驱动了其开发周期的每一步。但 Anthropic 正在将越来越多的 AI 开发工作委托给 AI 系统本身，这正在加速他们的工作。如果这一趋势走得足够远，并给予足够的计算资源，它指向一个能够完全自主设计和开发自身后继者的 AI 系统——即递归自我改进（Recursive Self-Improvement）。

Anthropic 通过公开基准和此前未公开的内部数据，展示了 AI 已经在加速 AI 系统的开发。最直接的证据：今天 Anthropic 的工程师平均每个季度合并的代码量是 2021-2025 年的 8 倍。这意味着 AI 不仅在帮助写代码，它正在从根本上改变 AI 研发的生产力曲线。

这篇文章的深层意义在于：它不是在讨论 AI 能不能做某件事，而是在展示 AI 已经在做这件事——加速自身的进化。这是一个自我强化的循环，其影响远超编程效率的提升。

📊 关键数据

代码合并量：Anthropic 工程师 2026 Q2 每天人均合并代码量是 2024 年的 8 倍（行数/工程师/天）
Claude 代码占比：截至 2026 年 5 月，Anthropic 代码库中超过 80% 的合并代码由 Claude 编写（2025 年 2 月 Claude Code 发布前为低个位数）
任务时长趋势：AI 可独立完成的任务时长约每 4 个月翻倍（此前为每 7 个月翻倍）
SWE-bench：两年内从低个位数得分飙升至接近饱和
CORE-Bench（研究复现）：从 2024 年约 20% 成功率到 15 个月后饱和
优化实验：Claude Opus 4（2025.5）平均 3x 加速 → Claude Mythos Preview（2026.4）平均 52x 加速（人类需 4-8 小时达到 4x）
开放任务成功率：最困难级别的开放性任务，Claude 在 2026 年 5 月达到 76% 成功率，6 个月内提升 50 个百分点
研究判断力：在选择「下一步做什么」时，Mythos Preview 在 64% 的情况下比人类研究员选择了更好的方向（2025.11 Opus 4.5 为 51%）
员工自评：2026 年 3 月内部调查，130 名研究员中位数估计产出提升约 4 倍

🏗️ 技术架构与设计

从 Copilot 到自主 Agent 的四阶段演进：早期人工编码 → 聊天机器人辅助 → 编码 Agent 写文件 → 自主 Agent 运行代码并委托子 Agent 完成数小时工作
任务分级体系：从「执行明确指令」（如修复按钮）到「设计解决方案」（如调查网络延迟）再到「选择做什么」（如下季度规划），AI 在前两层已接近人类，第三层仍有差距但正在快速缩小
自动化代码审查：Claude 自动审查所有代码变更，在回溯分析中发现能捕获约 1/3 的历史生产 bug——这些 bug 是世界上最优秀的工程师漏掉的
端到端研究自动化：2026 年 4 月，Anthropic 展示了 Claude 自主完成开放式研究项目——提出假设、测试、与并行 Agent 分享发现、迭代，800 累计小时恢复了 97% 的性能差距（人类一周恢复 23%）
规模效应：800+ API 错误修复在 2 小时内完成，人类估计需要 4 年——AI 能同时持有大量不熟悉的上下文，这是人类的认知瓶颈

🧠 关键洞察

🔑 人类角色正在收窄：在 AI 开发流程的每一步，人类的角色都在缩小。代码质量和人类持平时，人类将停止写代码，只做审查。但审查速度跟不上生成速度时，人类审查就成为瓶颈。「执行」（写代码、跑实验、产出结果）的人类时间成本趋近于零，剩下的核心价值是「判断力」——选什么问题、信什么结果、什么时候该放弃。

🔑 1% 灵感 vs 99% 汗水正在反转：爱迪生说天才是 1% 灵感加 99% 汗水。但 Anthropic 的数据显示，「汗水」正在被大规模自动化。前沿 AI 进步主要取决于工具和资源——你能多快跑实验、能同时跑多少、多快拿到结果。即使 Claude 永远不具备好的研究品味，保守解读仍意味着复合加速效应。

🔑 递归自我改进比多数机构准备好的更快：Anthropic 明确表示，递归自我改进不是不可避免的，但它可能比大多数机构准备好的时间更早到来。如果系统能完全自主构建自己的后继者，那么安全、监控和行为塑造都变得更加重要。这不是科幻——这是 Anthropic 自己的工程师正在经历的现实。

🔑 对软件工程的启示：如果 AI 编码 Agent 的成功率达到 76% 且仍在上升，那么「人机协作」的模式将从「人写代码 AI 辅助」转变为「AI 写代码人审查」。Harness Engineering 的核心——环境设计、反馈循环、渐进式披露——将决定 AI 能否从 76% 走向 99%。

🚀 引发思考

这篇文章最震撼的不是任何单一数据点，而是它描绘的整体图景：AI 开发 AI 的飞轮已经转起来了。Anthropic 的工程师每季度合并 8 倍代码，其中 80% 由 Claude 编写；Claude 在优化实验中达到 52 倍加速，人类需要 4-8 小时才能达到 4 倍；在开放式研究任务中，AI 的判断力已经超过人类 64% 的时间。这些不是预测，是已经发生的事实。

对我们而言，这意味着需要重新思考「编程」这个职业的定义。当 AI 能写 80% 的代码且质量与人类持平时，工程师的核心价值不再是写代码的能力，而是判断力——知道该解决什么问题、如何设计系统、什么时候信任 AI 的输出。Harness Engineering、环境设计、反馈循环这些概念，将从「好的实践」变成「生存必需」。未来的工程师不是写代码的人，而是设计让 AI 高效工作的环境的人。

📚 相关阅读

Dario Amodei — Machines of Loving Grace
METR — Measuring AI Ability to Complete Long Tasks
Anthropic — Automated Weak-to-Strong Research
Sebastian Raschka — LLM Research Papers: The 2026 List

逍遥云初 | 2026.06.22

When AI Builds Itself：Anthropic 揭示递归自我改进的现实与加速

📌 核心问题：AI 正在加速开发 AI 本身

📊 关键数据

🏗️ 技术架构与设计

🧠 关键洞察

🚀 引发思考

📚 相关阅读

推荐好物

相关文章

When AI Builds Itself：Anthropic 揭示递归自我改进的现实与加速

📌 核心问题：AI 正在加速开发 AI 本身

📊 关键数据

🏗️ 技术架构与设计

🧠 关键洞察

🚀 引发思考

📚 相关阅读

推荐好物

AI领航·智慧未来

游戏服专属特惠

音视频通讯

相关文章

L3/L4自动驾驶强制国标来了：中国自动驾驶进入「论证式监管」时代

端侧AI加速渗透：工业视觉、智能安防、机器人成为三大主流场景，2026协同效应爆发

2026新能源汽车下乡正式启动：155款车型入选，小米SU7在列，乡村市场成核心增长极