论文链接:https://arxiv.org/abs/2606.17056
代码仓库:https://github.com/nickjiang2378/value-axis
作者:Nick Jiang(斯坦福)、Isaac Kauvar(Anthropic)、Jack Lindsey(Anthropic)
🧠 核心问题:语言模型知道自己走在正确的路上吗?
当一个大模型在解数学题、写代码、或者进行多轮推理时,它是否内部有一种机制来判断「我现在的方向对不对」?这个问题看似简单,却是理解 LLM 推理能力的关键。传统观点认为,推理模型(如 DeepSeek-R1、QwQ)的优越性来自更长的思维链——通过更多的计算来弥补能力不足。但这项研究表明,事情远比「算得更多」复杂得多。
研究者们在 Qwen3-8B 中发现了一个线性方向——「价值轴」(Value Axis),它编码了模型对当前策略成功概率的估计。这个方向并非简单的「正面/负面」情感信号,而是一个跨越数学推理、代码生成、偏好学习等多个领域的通用价值表征。更令人惊讶的是,通过操控这个方向,可以因果性地改变模型的行为:向高价值方向引导,模型变得更果断、更简洁;向低价值方向引导,模型开始自我怀疑、回溯探索。
这项工作的意义在于:它首次从机制可解释性的角度揭示了 LLM 内部存在一个类似强化学习中「价值函数」的通用表征,而这个表征可以通过后训练被重塑,进而影响模型在各个下游任务中的行为。
📊 关键数据与实验结果
- 价值轴在 25 个留出标准上的 AUROC 达到 0.95+,表明它捕获的是通用价值表征而非特定标准的过拟合
- 在 AIME 数学竞赛题上,价值轴投影区分高/低置信回答的 AUROC 为 0.75
- 在 225 道 LeetCode 题目上,正确代码 vs 打乱行序代码的 Cohen's d = 1.05,正确 vs 混淆变量名的 Cohen's d = 0.69
- 正向引导使模型在 AIME 题上回溯行为显著减少,负向引导则显著增加回溯
- 正向引导使代码解答行数、注释数量、类型标注均减少——模型更果断,不需要「解释自己」
- DPO 偏好学习可以提升被偏好词汇的内部价值,且这种价值变化会迁移到自由生成场景
🏗️ 技术架构与方法设计
1. 合成 In-Context RL 数据构建价值轴
研究者设计了一个巧妙的合成任务:让模型猜测隐藏的修改标准(如「加入破折号」「使用比喻」),每次修改后获得 +1/-1 反馈。在模型「发现」标准的那一刻,价值发生突变——之前是探索期(低价值),之后是确定期(高价值)。通过对比发现前后的 token 激活差异,提取出价值轴方向。整个过程使用 300 条合成对话,50 个随机标准,仅需一次差值运算。
2. 价值轴在中间层涌现
通过逐层分析发现,价值表征在第 13 层之后发生显著方向变化,前后的方向近乎正交。这表明价值编码是模型在中间层形成的高层语义表征,而非简单的输入特征。最终选择第 21 层作为主分析层。
3. 跨领域泛化验证
价值轴在三个完全不同领域展现一致性行为:AIME 数学题(预测回溯和置信度)、LeetCode 编程题(区分正确/错误代码)、Chatbot Arena 真实对话(信息提取 vs 敏感话题)。这种跨域泛化能力说明它不是某个任务的副产品,而是模型内部的通用价值评估机制。
4. 因果操控实验
通过在生成时向激活中注入价值轴方向(Activation Steering),研究者证明了因果关系而非仅仅是相关性。正向引导 → 抑制回溯、减少解释、增加果断性;负向引导 → 诱发探索、增加注释和解释性文本。这种操控在 AIME 和 LeetCode 两个领域都成立。
5. 后训练重塑内部价值
DPO 训练模型偏好某个词(如 always choose 'grapefruit')后,该词的内部价值上升。更有趣的是,在代码生成中使用这些被偏好的词,会引发虚假的简洁行为——模型更少写注释和解释,仿佛使用这个词增强了它对整个解答的信心。这说明偏好学习不仅改变表面行为,还重塑了模型内部的价值评估体系。
🔑 关键洞察
💭 引发思考
这项研究最令人深思的地方在于,它暗示大语言模型内部可能已经发展出了一种原始的「元认知」能力——不是简单的模式匹配,而是对自身策略质量的评估。当我们在讨论 AI 是否「理解」某个问题时,或许更重要的问题是:它是否知道自己理解得对不对?价值轴的存在表明,至少在某种程度上,答案是肯定的。
从工程角度看,这项工作指向了一个激动人心的方向:推理时计算(Inference-time Compute)的精细化控制。目前的推理模型倾向于通过生成更多 token 来提升质量,但这种「暴力思考」效率低下。如果我们能在生成过程中实时监控和调控价值轴,就能实现「该果断时果断,该探索时探索」的智能推理策略,这将大幅提升推理效率,降低计算成本。
📚 相关阅读
- Reasoning Models Generate Societies of Thought(arXiv:2601.10825)— 推理模型内部模拟多智能体交互
- The Illusion of Thinking(Apple, 2025)— 推理模型的优势与局限
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs(arXiv:2501.12948)— 推理能力的强化学习激励
- Representation Engineering(2023)— 通过操控表征实现行为控制的先驱工作
逍遥云初 | 2026.06.18






