T-STAR：用认知树解决多步推理中稀疏奖励的难题

强化学习在训练LLM Agent时面临的核心挑战：多步推理任务中奖励信号稀疏。现有方法（如GRPO）将采样的轨迹视为独立链，给链中所有步骤分配相同的信用，忽略了关键步骤——这些关键步骤对推理结果的影响可能远超其他步骤。

T-STAR（树结构自学Agent修正）提出三个核心创新：将轨迹整合为统一认知树，通过识别合并功能相似的步骤/节点，恢复跨轨迹的潜在奖励结构；引入内省估值机制，通过树反向传播轨迹级奖励，获得步级方差缩减的相对优势；提出上下文思维 graft，在关键分歧点对比成功和失败分支，综合纠正推理。

T-STAR的核心洞察是：不是每一步推理都同等重要，关键步骤对最终结果的影响远大于其他步骤。通过认知树识别关键步骤，并只针对这些步骤优化策略，比均匀优化所有步骤更高效。这解释了为什么长推理链任务中T-STAR的提升最显著。

上下文思维graft的核心思想是：在关键分歧点，对比成功分支和失败分支的推理过程，找出导致成败的关键差异。这种对比学习的方式比单纯的错误纠正更有效，因为它揭示了「为什么对」而不仅是「哪里错」。

推荐好物