T-STAR：用认知树让多步推理Agent学会"关键决策点"

当前LLM Agent的多步推理任务存在稀疏奖励问题。现有方法（如GRPO）将采样轨迹视为独立链，给所有步骤分配相同信用，忽略了关键决策点对结果的不成比例影响。

T-STAR核心创新：通过识别并合并功能相似的步骤/节点，将独立轨迹整合为认知树。通过内省评估机制，将轨迹级奖励反向传播到树结构，获得步骤级方差缩减的相对优势。基于认知树，开发上下文思维嫁接——在关键分歧点对比成功与失败分支，合成纠正推理。

T-STAR的核心洞察是：多步推理中，不是每一步都同等重要——关键决策点对最终结果的影响远大于其他步骤。通过识别这些关键点并集中优化，Agent可以在长推理链任务上实现更显著的改进。

将独立轨迹整合为认知树，本质上是通过结构化来对抗稀疏奖励——原本分散的弱信号通过树结构被放大和关联，关键节点的影响力得以被识别和利用。

推荐好物