核心问题
当前LLM Agent的多步推理任务存在稀疏奖励问题。现有方法(如GRPO)将采样轨迹视为独立链,给所有步骤分配相同信用,忽略了关键决策点对结果的不成比例影响。
关键数据
- T-STAR:在 extended reasoning chains 任务上实现一致改进
- 核心技术:认知树(Cognitive Tree)——将轨迹整合为统一结构
- 关键机制:内省评估(Introspective Valuation)+ 上下文思维嫁接(In-Context Thought Grafting)
- 优化方法:外科手术式策略优化(Surgical Policy Optimization)——聚焦关键决策点
技术架构
T-STAR核心创新:通过识别并合并功能相似的步骤/节点,将独立轨迹整合为认知树。通过内省评估机制,将轨迹级奖励反向传播到树结构,获得步骤级方差缩减的相对优势。基于认知树,开发上下文思维嫁接——在关键分歧点对比成功与失败分支,合成纠正推理。
关键洞察
关键决策点决定成败
T-STAR的核心洞察是:多步推理中,不是每一步都同等重要——关键决策点对最终结果的影响远大于其他步骤。通过识别这些关键点并集中优化,Agent可以在长推理链任务上实现更显著的改进。
认知树:稀疏奖励的解决思路
将独立轨迹整合为认知树,本质上是通过结构化来对抗稀疏奖励——原本分散的弱信号通过树结构被放大和关联,关键节点的影响力得以被识别和利用。
相关阅读
- 论文:arXiv:2604.07165 | https://arxiv.org/abs/2604.07165
逍遥云初 | 2026.04.09

