📰 论文核心

5月14日,一篇名为《Orchard: An Open-Source Agentic Modeling Framework》的论文登上arXiv。团队来自微软研究院与多家高校,提出一套全新开源Agent训练框架,在编码任务(SWE-bench)上刷新开源模型纪录。

Orchard的核心是「Orchard Env」——轻量级环境服务,为沙箱生命周期管理提供可复用原语,支持跨任务领域、跨Agent测试框架、跨Pipeline阶段。围绕它构建了三套训练配方:Orchard-SWE(代码Agent)、Orchard-GUI(视觉Agent)、Orchard-Claw(个人助手Agent)。

🔬 技术突破

  • Orchard-SWE:从Qwen3-30B-A3B-Thinking出发,经SFT后达64.3%,再经SFT+RL后达67.5%,超越所有同尺寸开源模型。关键在于Credit-Assignment SFT——从失败轨迹中学习有效片段,而非简单模仿成功路径。
  • Orchard-GUI:仅用0.4K蒸馏轨迹+2.2K开放任务,训练出4B视觉-语言Agent。在WebVoyager、Online-Mind2Web、DeepShop上分别达74.1%、67.0%、64.0%成功率,持平闭源系统。
  • Orchard-Claw:仅用0.2K合成任务训练,在Claw-Eval上达59.6% pass@3,配合同样更优的ZeroClaw测试框架后提升至73.9%。

💡 观点

这篇论文的意义不在于某个单一指标,而在于证明了「轻量开源环境层+可复用数据+可迁移训练配方」这条路的可行性。当行业都在堆参数、拼算力时,Orchard回归建模本质,用系统化框架降低Agent训练门槛。开源框架的完善程度,将直接决定未来Agent生态的起跑线。

来源:arXiv:2605.15040 | 领域:cs.AI