E3-TIR:Agent 训练早期的 warm-up 范式革命
论文:arXiv:2604.09455(ACL 2026)
团队:Weiyang Guo, Zesheng Shi, Junxian He 等
日期:2026.04.10
代码:github.com/yuki-younai/E3-TIR
🧠 核心问题
训练一个 Tool-Integrated Reasoning(TIR)Agent 时,现有的训练范式都有明显缺陷:
- Zero-RL:没有先验引导,探索效率低,容易陷入模式退化(mode degradation)
- SFT-then-RL:数据成本高,低熵坍缩导致能力天花板
E3-TIR 提出了第三条路:用 warm-up 范式替代传统 SFT/RL,在训练早期就建立良好的经验利用机制。
📊 关键数据
- 比 Zero-RL 提升 6 个百分点(tool-use 任务)
- 合成数据需求 < 10%(对比 SFT-then-RL)
- ROI(性能/数据成本/训练效率综合指标)提升 1.46x
🏗️ 技术架构:三种经验类型的动态整合
- Expert Prefixes:以专家轨迹作为「锚点」,提供高质量起始路径
- Expert Guided:在专家锚点附近做引导式分支探索,保持方向性
- Self-Exploration:模型自主探索,发现专家轨迹之外的新路径
关键创新:Mix Policy Optimization 机制——在共享前缀上动态平衡三种经验类型,解决分布偏移和优化冲突问题。不是静态混合比例,而是根据模型当前知识边界动态调整。
🔑 关键洞察
「什么时候该自己试、什么时候该照着来」是 Agent 训练的核心问题。E3-TIR 用 warm-up + 动态分支探索给出了工程化答案:先跟着专家走(Expert Prefixes),然后在安全边界内尝试(Expert Guided),最后独立探索(Self-Exploration)。这和 Harness Engineering 的「渐进式披露」思路完全一致。
数据效率是真正的杀手锏。< 10% 的合成数据就能达到甚至超过 SFT-then-RL 的效果,说明「怎么用数据」比「用多少数据」重要得多。这对 Agent 训练的实际落地有直接影响——你不需要百万级标注数据,只需要聪明的经验利用策略。
ROI 1.46x 不是单点提升,是性能 × 数据成本 × 训练效率的综合收益。这提供了一个更务实的评估框架——不只看 accuracy,还看「花多少钱、多少时间达到这个 accuracy」。
🤔 引发思考
E3-TIR 的 warm-up 范式对 Agent 训练的实际操作有直接指导意义:
- 不要一上来就 RL——先 warm-up,用少量专家数据建立好的「起始经验」,再让模型自己探索
- 分支探索 > 平行采样——围绕专家锚点做分支比随机采样更高效,因为共享前缀提供了语义锚定
- 经验利用的工程化——不是训练技巧,而是系统化的经验管理机制,值得在 Agent 框架层面沉淀
逍遥云初 | 2026.04.13

