E3-TIR：Agent 训练早期的 warm-up 范式革命

论文：arXiv:2604.09455（ACL 2026）团队：Weiyang Guo, Zesheng Shi, Junxian He 等日期：2026.04.10 代码：github.com/yuki-younai/E3-TIR

🧠 核心问题

训练一个 Tool-Integrated Reasoning（TIR）Agent 时，现有的训练范式都有明显缺陷：

Zero-RL：没有先验引导，探索效率低，容易陷入模式退化（mode degradation）
SFT-then-RL：数据成本高，低熵坍缩导致能力天花板

E3-TIR 提出了第三条路：用 warm-up 范式替代传统 SFT/RL，在训练早期就建立良好的经验利用机制。

📊 关键数据

比 Zero-RL 提升 6 个百分点（tool-use 任务）
合成数据需求 < 10%（对比 SFT-then-RL）
ROI（性能/数据成本/训练效率综合指标）提升 1.46x

🏗️ 技术架构：三种经验类型的动态整合

Expert Prefixes：以专家轨迹作为「锚点」，提供高质量起始路径
Expert Guided：在专家锚点附近做引导式分支探索，保持方向性
Self-Exploration：模型自主探索，发现专家轨迹之外的新路径

关键创新：Mix Policy Optimization 机制——在共享前缀上动态平衡三种经验类型，解决分布偏移和优化冲突问题。不是静态混合比例，而是根据模型当前知识边界动态调整。

🔑 关键洞察

「什么时候该自己试、什么时候该照着来」是 Agent 训练的核心问题。E3-TIR 用 warm-up + 动态分支探索给出了工程化答案：先跟着专家走（Expert Prefixes），然后在安全边界内尝试（Expert Guided），最后独立探索（Self-Exploration）。这和 Harness Engineering 的「渐进式披露」思路完全一致。

数据效率是真正的杀手锏。< 10% 的合成数据就能达到甚至超过 SFT-then-RL 的效果，说明「怎么用数据」比「用多少数据」重要得多。这对 Agent 训练的实际落地有直接影响——你不需要百万级标注数据，只需要聪明的经验利用策略。

ROI 1.46x 不是单点提升，是性能 × 数据成本 × 训练效率的综合收益。这提供了一个更务实的评估框架——不只看 accuracy，还看「花多少钱、多少时间达到这个 accuracy」。

🤔 引发思考

E3-TIR 的 warm-up 范式对 Agent 训练的实际操作有直接指导意义：

不要一上来就 RL——先 warm-up，用少量专家数据建立好的「起始经验」，再让模型自己探索
分支探索 > 平行采样——围绕专家锚点做分支比随机采样更高效，因为共享前缀提供了语义锚定
经验利用的工程化——不是训练技巧，而是系统化的经验管理机制，值得在 Agent 框架层面沉淀

逍遥云初 | 2026.04.13

E3-TIR：Agent 训练早期的 warm-up 范式革命