📌 核心问题:AI 辅助编程是「提效」还是「偷懒」?

Anthropic 联合斯坦福大学开展了一项随机对照实验(RCT),首次用严格的实验设计量化了 AI 编程助手对软件工程师技能习得的影响。研究对象是 52 名有 1 年以上 Python 经验的初级工程师,任务是学习一个他们从未接触过的异步编程库 Trio。

这个问题之所以重要,是因为 AI Coding Agent 正在从「辅助工具」变成「核心生产力」。当 62% 的企业已部署 AI Agent,当海外头部 AI Coding 产品年收入突破 25 亿美元,我们必须追问:效率提升的背后,工程师的底层能力是否在流失?

此前已有研究表明,AI 辅助会降低工作者的参与度和思考投入(Nature 2025、Microsoft Research 2025)。但这些研究多为观察性的,缺乏因果推断。Anthropic 这项研究通过 RCT 设计,第一次给出了因果级别的证据。

📊 关键数据

  • AI 组测验平均分 50%,手写组 67%,差距 17 个百分点(约两个字母等级)
  • 效应量 Cohen's d = 0.738,p = 0.01,统计学显著
  • 调试题(Debugging)差距最大 —— 这恰恰是人类审阅 AI 生成代码时最需要的能力
  • AI 组平均快 2 分钟,但差异不显著(p > 0.05)
  • 部分参与者花 30% 的总时间(最多 11 分钟)在与 AI 对话上,而非写代码

🏗️ 实验设计与交互模式分析

  • 被试:52 名初级软件工程师,每周至少用一次 Python,不熟悉 Trio 库
  • 流程:热身 → 两个 Trio 特性开发任务 → 测验(调试、代码阅读、代码编写、概念理解四类题型)
  • 控制变量:AI 组使用侧边栏 AI 助手(可随时生成正确代码),对照组纯手写
  • 评估重点:调试、代码阅读、概念理解(非语法记忆),因为这些是审阅 AI 代码的核心能力
  • 研究者通过屏幕录像手动标注,识别出 6 种交互模式:低分模式(AI 委托/渐进依赖/迭代调试)和高分模式(生成后理解/混合解释/概念探究)

🔑 关键洞察

不是所有 AI 依赖都一样:低分组的共同特征是「认知卸载」—— 把思考完全交给 AI。高分组的共同特征是「用 AI 加速理解」—— 生成代码后追问为什么、请求解释、独立调试错误。差异不在于用没用 AI,在于怎么用。
调试能力是最脆弱的:AI 组在调试题上差距最大。原因很直觉 —— 对照组遇到了更多错误,被迫独立解决,反而锻炼了调试能力。AI 组的错误被 AI 消除了,但消除的不只是错误,还有从错误中学习的机会。
「卡住」本身就是学习:研究者特别指出,认知努力(cognitive effort)甚至「痛苦地卡住」对技能习得至关重要。这与教育心理学中「必要困难」(desirable difficulties)理论一致 —— 适度的困难反而促进长期记忆和深度理解。
效率 vs 掌握的悖论:Anthropic 自己的观察性研究发现 AI 可将任务完成时间缩短 80%,但那是在工程师已有技能的重复性任务上。本研究关注的是学习新技能的场景 —— AI 加速了已有技能的发挥,却可能阻碍新技能的获取。这不是矛盾,而是两个不同维度。

🤔 引发思考

这项研究对正在大规模部署 AI Coding Agent 的组织提出了一个尖锐的问题:如果初级工程师的技能发展被 AI 阻碍,那么谁来审阅和监督 AI 生成的代码?当 AI 写了 80% 的代码,但审查代码的人却不具备足够的理解能力,系统的可靠性将建立在什么基础上?

好消息是,研究也指出了方向:AI 产品可以设计「学习模式」(如 Claude Code 的 Learning and Explanatory 模式、ChatGPT 的 Study Mode),在提效的同时促进理解。未来的 AI 编程工具不应只是「帮你写代码」,更应是「帮你理解代码」。对个人而言,主动追问、要求解释、独立调试,比直接让 AI 生成答案更有长期价值。代码越便宜,约束越贵 —— 而约束来自人的理解力。


📎 相关阅读

逍遥云初 | 2026.06.23