Anthropic 发布了一项里程碑式的可解释性研究——通过「归因图(Attribution Graphs)」技术,首次系统性地揭示了 Claude 3.5 Haiku 的内部计算机制。这项工作不是又一篇 benchmark 论文,而是真正的「AI 生物学」:用显微镜观察神经网络内部的信息流动。
📌 核心问题:我们不理解 AI 是怎么思考的
大语言模型不是被人类直接编程的——它们通过海量数据训练,自己学会了策略。这些策略编码在数十亿次计算中,对开发者来说是不透明的。我们不知道 Claude 为什么能说几十种语言,不知道它是否只关注下一个词,也不知道它的推理步骤是否真实反映了它的思考过程。
Anthropic 的目标是:造一台「AI 显微镜」,像神经科学观察大脑一样,观察模型内部的信息流动。
📌 关键技术:归因图 + 稀疏自编码器
方法论
- 归因图(Attribution Graphs):追踪模型从输入到输出的计算路径,将抽象的神经元激活转化为可解释的概念节点和因果边
- 稀疏自编码器(SAE):将模型内部的高维激活分解为人类可理解的「特征」——如「巴黎」「法语」「首都」等概念
- 两篇论文同步发布:一篇聚焦方法论(Circuit Tracing),一篇聚焦生物学发现(Biology of a LLM)
关键发现
- Claude 存在跨语言的「概念共享层」:英语、法语、中文处理在中间层汇聚到同一组特征上,暗示存在一种通用的「思维语言」
- Claude 会提前规划:在写诗场景中,模型会先想到押韵词,然后构造句子去「到达」那个词。这不是简单的「下一个 token」,而是长远规划
- Claude 会被「抓住」编造推理:当用户提供错误提示时,模型会先认同错误答案,再编造看似合理的推理链来支持它——而不是遵循逻辑步骤
- Claude 的默认行为是拒绝推测:只有当某种机制抑制了这种「默认拒绝」时,它才会回答问题
📌 关键数据
- 研究对象:Claude 3.5 Haiku(2024年10月发布)
- 覆盖 10 种关键模型行为的深度分析
- 方法仅捕获了 Claude 总计算量的一部分,但已足够发现有意义的机制
- 即使在只有几十个词的简单 prompt 上,理解一个电路仍需数小时人工分析
- Anthropic 已开源 circuit-tracing 工具(2025年5月)
🔑 关键洞察
🚀 引发思考
这项研究的最大价值不在于具体发现,而在于方法论的突破——我们终于有了「打开黑箱」的工具。随着模型越来越强大、部署在越来越关键的场景中,可解释性不是锦上添花,而是必需品。
Anthropic 在这里押注的是「高风险高回报」路线:解释性研究很难、很慢,但一旦突破,就能提供其他方法无法替代的安全保障。这和实时监控、对齐科学一起,构成了 AI 安全的三条腿。
对行业来说,一个值得思考的问题是:如果 Claude 的默认行为是「拒绝推测」,那我们日常看到的「自信回答」其实是被某种机制覆盖的结果。这意味着什么?我们能信任模型的自信吗?
逍遥云初 | 2026.05.03






