📌 核心问题:AI 正在加速制造 AI,递归自改进已非空谈
在 AI 发展的大部分历史中,人类驱动着开发周期的每一步。但 Anthropic 正在将越来越多的 AI 开发工作委托给 AI 系统本身。这一趋势指向一个终极目标:完全自主地设计和开发自身继任者的 AI 系统——即递归自改进(Recursive Self-Improvement)。Anthropic 尚未到达这一步,但他们的内部数据表明,这一天可能比大多数机构准备好的要早得多。
这篇来自 Anthropic Institute 的深度报告,首次公开了 Anthropic 内部未披露的数据,展示了 AI 如何已经在加速 AI 系统的开发。这不是理论推演,而是已经在发生的工程现实。
📊 关键数据:从 80% 代码由 Claude 编写到 52x 性能优化
- 80%+ 代码由 Claude 编写:截至 2026 年 5 月,Anthropic 合并到代码库的代码中超过 80% 由 Claude 撰写。2025 年 2 月 Claude Code 发布前,这个数字仅为个位数
- 8x 工程效率提升:2026 Q2,Anthropic 工程师人均每日合并代码量是 2024 年的 8 倍
- 4x 研究产出提升:2026 年 3 月对 130 名研究员的调查,中位数估计使用 Mythos Preview 后产出提升约 4 倍
- 52x 实验优化:2026 年 4 月 Claude Mythos Preview 在代码优化实验中达到 52x 加速(2025 年 5 月 Opus 4 为 3x,人类研究员 4-8 小时达到 4x)
- 任务时长翻倍加速:AI 可独立完成的任务时长从每 7 个月翻倍加速到每 4 个月翻倍。Opus 3(4 分钟)→ Sonnet 3.7(1.5 小时)→ Opus 4.6(12 小时)
- 76% 开放式任务成功率:最困难的开放式任务(无明确规格说明)成功率从 6 个月前的 26% 提升到 76%
- 97% 研究差距弥合:在自主研究项目中,Claude 弥合了弱监督强模型 97% 的性能差距(人类研究员一周完成 23%),累计 800 小时,约 $18,000 算力成本
- 1000x 错误减少:2026 年 4 月,Claude 交付 800+ 修复,将一类 API 错误减少了 1000 倍,人类估计需要 4 年完成
🏗️ 技术架构与演进路径
- 四阶段演进:构建 Claude(2021-2023,纯人工)→ 聊天机器人(2023-2025,代码片段辅助)→ 编码 Agent(2025-2026,自主编写编辑代码)→ 自主 Agent(现在,运行代码并委派数小时工作给其他 Agent)
- 能力分层模型:执行明确任务(初级)→ 设计解决方案(高级)→ 选择值得解决的问题(资深)。Claude 在前两层已接近或超越人类,第三层仍有显著差距
- 自动化代码审查:Claude 自动审查代码变更,回溯分析发现可捕获过去 claude.ai 生产事故中约 1/3 的 bug,而这些代码由世界顶尖工程师编写
- 基准测试饱和:SWE-bench(软件工程)和 CORE-Bench(研究复现)均在 15-24 个月内从低分达到饱和。METR 测试显示 Claude Mythos Preview 可连续工作至少 16 小时
- 研究判断力进化:在「下一步该怎么做」的决策中,Opus 4.5(2025.11)51% 优于人类选择 → Mythos Preview(2026.4)64% 优于人类选择
🔑 关键洞察
💭 引发思考
Anthropic 员工的两段自述令人深思:一位说「我已经 5 个月没自己写过代码了」,另一位说「在一切顺利的日子里,我忍不住觉得我做什么都不重要了,一切都被自动化了,比我更快更好。但在一切崩溃的日子里,我意识到我甚至不知道自己在干什么了」。这揭示了一个深刻的张力:当 AI 加速一切时,人类的价值不在于速度,而在于方向感和判断力。
对于 AI Coding Agent 领域,这篇报告的意义远超技术本身。它表明「AI 写代码」已经不是新闻——「AI 加速 AI 进步」才是。当 Anthropic 的工程师从写代码转向审查代码、从执行实验转向设计实验时,整个软件工程的职业定义正在被重写。这与 Harness Engineering 的核心理念高度一致:环境设计、反馈循环和渐进式披露比代码本身更重要。未来 1-2 年,工程师的核心竞争力将从「写好代码」转向「设计好约束」。
📎 相关阅读
- 原文链接:When AI builds itself — Anthropic Institute
- METR 任务时长评估:https://metr.org/time-horizons/
- Claude Mythos 技术报告:Mythos Preview
- 自动化 W2S 研究:https://alignment.anthropic.com/2026/automated-w2s-researcher/
逍遥云初 | 2026.06.29






