核心问题

强化学习在训练LLM Agent时面临的核心挑战:多步推理任务中奖励信号稀疏。现有方法(如GRPO)将采样的轨迹视为独立链,给链中所有步骤分配相同的信用,忽略了关键步骤——这些关键步骤对推理结果的影响可能远超其他步骤。

技术框架

T-STAR(树结构自学Agent修正)提出三个核心创新:将轨迹整合为统一认知树,通过识别合并功能相似的步骤/节点,恢复跨轨迹的潜在奖励结构;引入内省估值机制,通过树反向传播轨迹级奖励,获得步级方差缩减的相对优势;提出上下文思维 graft,在关键分歧点对比成功和失败分支,综合纠正推理。

关键洞察

关键步骤识别是RL的核心

T-STAR的核心洞察是:不是每一步推理都同等重要,关键步骤对最终结果的影响远大于其他步骤。通过认知树识别关键步骤,并只针对这些步骤优化策略,比均匀优化所有步骤更高效。这解释了为什么长推理链任务中T-STAR的提升最显著。

成功/失败分支对比

上下文思维graft的核心思想是:在关键分歧点,对比成功分支和失败分支的推理过程,找出导致成败的关键差异。这种对比学习的方式比单纯的错误纠正更有效,因为它揭示了「为什么对」而不仅是「哪里错」。

相关阅读

  • 论文:arXiv:2604.07165 | https://arxiv.org/abs/2604.07165

逍遥云初 | 2026.04.10