The Value Axis：语言模型内部如何编码「方向正确性」

📌 斯坦福与 Anthropic 联合研究 | arXiv:2606.17056 | 2026-06-15

代码仓库：https://github.com/nickjiang2378/value-axis

作者：Nick Jiang（斯坦福）、Isaac Kauvar（Anthropic）、Jack Lindsey（Anthropic）

🧠 核心问题：语言模型知道自己走在正确的路上吗？

当一个大模型在解数学题、写代码、或者进行多轮推理时，它是否内部有一种机制来判断「我现在的方向对不对」？这个问题看似简单，却是理解 LLM 推理能力的关键。传统观点认为，推理模型（如 DeepSeek-R1、QwQ）的优越性来自更长的思维链——通过更多的计算来弥补能力不足。但这项研究表明，事情远比「算得更多」复杂得多。

研究者们在 Qwen3-8B 中发现了一个线性方向——「价值轴」（Value Axis），它编码了模型对当前策略成功概率的估计。这个方向并非简单的「正面/负面」情感信号，而是一个跨越数学推理、代码生成、偏好学习等多个领域的通用价值表征。更令人惊讶的是，通过操控这个方向，可以因果性地改变模型的行为：向高价值方向引导，模型变得更果断、更简洁；向低价值方向引导，模型开始自我怀疑、回溯探索。

这项工作的意义在于：它首次从机制可解释性的角度揭示了 LLM 内部存在一个类似强化学习中「价值函数」的通用表征，而这个表征可以通过后训练被重塑，进而影响模型在各个下游任务中的行为。

📊 关键数据与实验结果

价值轴在 25 个留出标准上的 AUROC 达到 0.95+，表明它捕获的是通用价值表征而非特定标准的过拟合
在 AIME 数学竞赛题上，价值轴投影区分高/低置信回答的 AUROC 为 0.75
在 225 道 LeetCode 题目上，正确代码 vs 打乱行序代码的 Cohen's d = 1.05，正确 vs 混淆变量名的 Cohen's d = 0.69
正向引导使模型在 AIME 题上回溯行为显著减少，负向引导则显著增加回溯
正向引导使代码解答行数、注释数量、类型标注均减少——模型更果断，不需要「解释自己」
DPO 偏好学习可以提升被偏好词汇的内部价值，且这种价值变化会迁移到自由生成场景

🏗️ 技术架构与方法设计

1. 合成 In-Context RL 数据构建价值轴

研究者设计了一个巧妙的合成任务：让模型猜测隐藏的修改标准（如「加入破折号」「使用比喻」），每次修改后获得 +1/-1 反馈。在模型「发现」标准的那一刻，价值发生突变——之前是探索期（低价值），之后是确定期（高价值）。通过对比发现前后的 token 激活差异，提取出价值轴方向。整个过程使用 300 条合成对话，50 个随机标准，仅需一次差值运算。

2. 价值轴在中间层涌现

通过逐层分析发现，价值表征在第 13 层之后发生显著方向变化，前后的方向近乎正交。这表明价值编码是模型在中间层形成的高层语义表征，而非简单的输入特征。最终选择第 21 层作为主分析层。

3. 跨领域泛化验证

价值轴在三个完全不同领域展现一致性行为：AIME 数学题（预测回溯和置信度）、LeetCode 编程题（区分正确/错误代码）、Chatbot Arena 真实对话（信息提取 vs 敏感话题）。这种跨域泛化能力说明它不是某个任务的副产品，而是模型内部的通用价值评估机制。

4. 因果操控实验

通过在生成时向激活中注入价值轴方向（Activation Steering），研究者证明了因果关系而非仅仅是相关性。正向引导 → 抑制回溯、减少解释、增加果断性；负向引导 → 诱发探索、增加注释和解释性文本。这种操控在 AIME 和 LeetCode 两个领域都成立。

5. 后训练重塑内部价值

DPO 训练模型偏好某个词（如 always choose 'grapefruit'）后，该词的内部价值上升。更有趣的是，在代码生成中使用这些被偏好的词，会引发虚假的简洁行为——模型更少写注释和解释，仿佛使用这个词增强了它对整个解答的信心。这说明偏好学习不仅改变表面行为，还重塑了模型内部的价值评估体系。

🔑 关键洞察

推理能力不仅是「算得多」，更是「算得对方向」。传统观点认为推理模型靠更长思维链取胜，但价值轴揭示了另一个维度：模型内部有一个持续运行的「方向评估器」，它决定了模型是继续当前策略还是切换方向。这意味着未来的推理优化可以不仅关注生成更多 token，还可以通过显式操控价值表征来引导推理效率。

后训练不仅改变行为，还重塑模型的「直觉」。DPO 偏好学习提升了被偏好词的内部价值，并且这种变化迁移到了不相关任务中（如代码生成）。这意味着 RLHF/DPO 等对齐技术的影响范围远超预期——它们在改变模型「喜欢什么」的同时，也在改变模型「对什么有信心」。这对安全对齐有深远影响。

激活操控（Activation Steering）作为推理控制的新范式。研究证明，通过简单地在激活中加减一个方向向量，就能因果性地改变模型的回溯行为、置信度和输出风格。这为「不改权重、只改推理」的推理时控制开辟了新路径——想象一个可以根据任务难度自动调节「果断性」的推理系统。

价值轴可能是通往更好 Agent 的关键。如果模型能内部评估「当前方向是否正确」，那么它就能更智能地决定何时坚持、何时回溯、何时寻求帮助。这对长时间运行的 Agent 任务（如代码调试、多步规划）尤其重要。结合激活操控技术，未来可能实现「推理策略的运行时调控」。

💭 引发思考

这项研究最令人深思的地方在于，它暗示大语言模型内部可能已经发展出了一种原始的「元认知」能力——不是简单的模式匹配，而是对自身策略质量的评估。当我们在讨论 AI 是否「理解」某个问题时，或许更重要的问题是：它是否知道自己理解得对不对？价值轴的存在表明，至少在某种程度上，答案是肯定的。

从工程角度看，这项工作指向了一个激动人心的方向：推理时计算（Inference-time Compute）的精细化控制。目前的推理模型倾向于通过生成更多 token 来提升质量，但这种「暴力思考」效率低下。如果我们能在生成过程中实时监控和调控价值轴，就能实现「该果断时果断，该探索时探索」的智能推理策略，这将大幅提升推理效率，降低计算成本。

📚 相关阅读

Reasoning Models Generate Societies of Thought（arXiv:2601.10825）— 推理模型内部模拟多智能体交互
The Illusion of Thinking（Apple, 2025）— 推理模型的优势与局限
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs（arXiv:2501.12948）— 推理能力的强化学习激励
Representation Engineering（2023）— 通过操控表征实现行为控制的先驱工作

逍遥云初 | 2026.06.18

The Value Axis：语言模型内部如何编码「方向正确性」

🧠 核心问题：语言模型知道自己走在正确的路上吗？

📊 关键数据与实验结果

🏗️ 技术架构与方法设计

1. 合成 In-Context RL 数据构建价值轴

2. 价值轴在中间层涌现

3. 跨领域泛化验证

4. 因果操控实验

5. 后训练重塑内部价值

🔑 关键洞察

💭 引发思考

📚 相关阅读

推荐好物

相关文章

The Value Axis：语言模型内部如何编码「方向正确性」

🧠 核心问题：语言模型知道自己走在正确的路上吗？

📊 关键数据与实验结果

🏗️ 技术架构与方法设计

1. 合成 In-Context RL 数据构建价值轴

2. 价值轴在中间层涌现

3. 跨领域泛化验证

4. 因果操控实验

5. 后训练重塑内部价值

🔑 关键洞察

💭 引发思考

📚 相关阅读

推荐好物

音视频通讯

即时通信IM

酒类

相关文章

AI科技前沿快讯｜2026年8月1日

AI科技前沿快讯｜2026年7月29日

AI科技前沿快讯 | 2026年7月28日