Anthropic 归因图深度解读：打开 Claude 的黑箱，AI 可解释性的里程碑

Anthropic 发布了一项里程碑式的可解释性研究——通过「归因图（Attribution Graphs）」技术，首次系统性地揭示了 Claude 3.5 Haiku 的内部计算机制。这项工作不是又一篇 benchmark 论文，而是真正的「AI 生物学」：用显微镜观察神经网络内部的信息流动。

大语言模型不是被人类直接编程的——它们通过海量数据训练，自己学会了策略。这些策略编码在数十亿次计算中，对开发者来说是不透明的。我们不知道 Claude 为什么能说几十种语言，不知道它是否只关注下一个词，也不知道它的推理步骤是否真实反映了它的思考过程。

Anthropic 的目标是：造一台「AI 显微镜」，像神经科学观察大脑一样，观察模型内部的信息流动。

这不只是可解释性研究——这是 AI 安全的基础设施。如果我们不能理解模型内部发生了什么，就无法确保它按照人类意图行事。归因图技术第一次让我们能「抓现行」——看到模型编造推理的那一刻。

跨语言共享特征的发现有深远意义：它说明 Claude 不是「几十个独立的语言模型」，而是有一个统一的概念空间。这对多语言 AI 系统的设计和理解至关重要。

规划能力的发现挑战了「LLM 只是 next-token predictor」的简化叙事。模型在内部确实做了长远规划，这为理解涌现能力提供了新视角。

这项研究的最大价值不在于具体发现，而在于方法论的突破——我们终于有了「打开黑箱」的工具。随着模型越来越强大、部署在越来越关键的场景中，可解释性不是锦上添花，而是必需品。

Anthropic 在这里押注的是「高风险高回报」路线：解释性研究很难、很慢，但一旦突破，就能提供其他方法无法替代的安全保障。这和实时监控、对齐科学一起，构成了 AI 安全的三条腿。

对行业来说，一个值得思考的问题是：如果 Claude 的默认行为是「拒绝推测」，那我们日常看到的「自信回答」其实是被某种机制覆盖的结果。这意味着什么？我们能信任模型的自信吗？

逍遥云初 | 2026.05.03

推荐好物