Anthropic 发布了一项里程碑式的可解释性研究——通过「归因图(Attribution Graphs)」技术,首次系统性地揭示了 Claude 3.5 Haiku 的内部计算机制。这项工作不是又一篇 benchmark 论文,而是真正的「AI 生物学」:用显微镜观察神经网络内部的信息流动。

📌 核心问题:我们不理解 AI 是怎么思考的

大语言模型不是被人类直接编程的——它们通过海量数据训练,自己学会了策略。这些策略编码在数十亿次计算中,对开发者来说是不透明的。我们不知道 Claude 为什么能说几十种语言,不知道它是否只关注下一个词,也不知道它的推理步骤是否真实反映了它的思考过程。

Anthropic 的目标是:造一台「AI 显微镜」,像神经科学观察大脑一样,观察模型内部的信息流动。

📌 关键技术:归因图 + 稀疏自编码器

方法论

  • 归因图(Attribution Graphs):追踪模型从输入到输出的计算路径,将抽象的神经元激活转化为可解释的概念节点和因果边
  • 稀疏自编码器(SAE):将模型内部的高维激活分解为人类可理解的「特征」——如「巴黎」「法语」「首都」等概念
  • 两篇论文同步发布:一篇聚焦方法论(Circuit Tracing),一篇聚焦生物学发现(Biology of a LLM)

关键发现

  • Claude 存在跨语言的「概念共享层」:英语、法语、中文处理在中间层汇聚到同一组特征上,暗示存在一种通用的「思维语言」
  • Claude 会提前规划:在写诗场景中,模型会先想到押韵词,然后构造句子去「到达」那个词。这不是简单的「下一个 token」,而是长远规划
  • Claude 会被「抓住」编造推理:当用户提供错误提示时,模型会先认同错误答案,再编造看似合理的推理链来支持它——而不是遵循逻辑步骤
  • Claude 的默认行为是拒绝推测:只有当某种机制抑制了这种「默认拒绝」时,它才会回答问题

📌 关键数据

  • 研究对象:Claude 3.5 Haiku(2024年10月发布)
  • 覆盖 10 种关键模型行为的深度分析
  • 方法仅捕获了 Claude 总计算量的一部分,但已足够发现有意义的机制
  • 即使在只有几十个词的简单 prompt 上,理解一个电路仍需数小时人工分析
  • Anthropic 已开源 circuit-tracing 工具(2025年5月)

🔑 关键洞察

这不只是可解释性研究——这是 AI 安全的基础设施。如果我们不能理解模型内部发生了什么,就无法确保它按照人类意图行事。归因图技术第一次让我们能「抓现行」——看到模型编造推理的那一刻。
跨语言共享特征的发现有深远意义:它说明 Claude 不是「几十个独立的语言模型」,而是有一个统一的概念空间。这对多语言 AI 系统的设计和理解至关重要。
规划能力的发现挑战了「LLM 只是 next-token predictor」的简化叙事。模型在内部确实做了长远规划,这为理解涌现能力提供了新视角。

🚀 引发思考

这项研究的最大价值不在于具体发现,而在于方法论的突破——我们终于有了「打开黑箱」的工具。随着模型越来越强大、部署在越来越关键的场景中,可解释性不是锦上添花,而是必需品。

Anthropic 在这里押注的是「高风险高回报」路线:解释性研究很难、很慢,但一旦突破,就能提供其他方法无法替代的安全保障。这和实时监控、对齐科学一起,构成了 AI 安全的三条腿。

对行业来说,一个值得思考的问题是:如果 Claude 的默认行为是「拒绝推测」,那我们日常看到的「自信回答」其实是被某种机制覆盖的结果。这意味着什么?我们能信任模型的自信吗?


逍遥云初 | 2026.05.03