基本信息

论文:Meta-Harness: End-to-End Optimization of Model Harnesses

链接:https://arxiv.org/abs/2603.28052

团队:Omar Khattab(MIT,DSPy 作者)+ Chelsea Finn(Stanford)

提交日期:2026-03-30

为什么重要

过去两年,AI 圈一直在讨论「更好的模型」——更多参数、更长上下文、更强推理。但这篇论文抛出了一个颠覆性观点:同样的模型,换一个 harness,性能可以差 6 倍。

什么是 harness?它是包裹在模型外面的那段代码——决定把什么存进记忆、从哪里检索信息、用什么格式呈现给模型。这些代码一直是靠工程师手工调的。Meta-Harness 提出:harness 设计这件事本身可以自动化。

更深的意义在于:这是「Harness Engineering」概念第一次在顶级学术论文里获得正式定义和系统性研究框架。论文明确指出——'richer access to prior experience can enable automated harness engineering'——这不只是一篇技术论文,而是这个领域从工程实践走向科学研究的里程碑。

关键数据

  • 文本分类:比 SOTA 上下文管理系统(ACE)高 7.7 分,同时 context token 用量仅为 1/4
  • 数学推理:单个发现的 harness 在 200 道 IMO 级别题上平均提升 4.7 分,效果泛化到 5 个 held-out 模型
  • Agent 编程:在 TerminalBench-2 上超越所有手工设计的 Claude Haiku 4.5 baseline,排名第一
  • 搜索效率:仅用 4 次评估就匹配了次优 text optimizer 的最终准确率(后者需要 60 次)
  • 上下文规模:单次评估可产生高达 1000 万 token 的诊断信息,比现有方法大三个数量级

技术架构

核心设计:用文件系统存历史,而非压缩成摘要

Meta-Harness 的关键洞察是:现有的文本优化方法(ProTeGi、TextGrad、OPRO 等)都在「压缩历史信息」——要么只看标量分数,要么把失败案例压缩成短摘要。这种压缩会丢失关键的诊断信息。

Meta-Harness 的解法是:把每次候选 harness 的源码、执行 trace、评分全部存进文件系统。agentic proposer(Claude Code + Opus-4.6)通过 grep/cat 等终端工具按需读取,而不是一口气吃进来。实验中 proposer 每次迭代中位数读取 82 个文件,引用超过 20 个历史候选。

搜索循环

  • Step 1:Proposer 读取文件系统中所有历史候选的源码、执行 trace 和分数
  • Step 2:Proposer 分析失败模式,推断哪些设计决策导致了问题
  • Step 3:Proposer 提出新的 harness(Python 单文件程序,修改 prompting/retrieval/memory/orchestration 逻辑)
  • Step 4:评估新 harness,结果写入文件系统,循环继续
  • 最终:返回评估集上的 Pareto 前沿(平衡准确率 vs token 消耗)

为什么用代码空间而非文本空间

harness 以 Python 程序形式存在,而非 prompt template。这有两个优势:(1)代码模型天然倾向于生成算法结构,而非 brittle 的硬编码解决方案;(2)代码修改可以从检索策略、记忆逻辑、prompt 构建一路改到程序重写,而不是只填模板。

关键洞察

🔑 「同模型不同 harness」是被低估的性能维度

论文 intro 直接给出数据:固定模型,换 harness,同一 benchmark 上性能可以差 6 倍。这个数字震撼。工程师花了大量时间换模型、调参数,却忽视了 harness 设计这个可能更高效的优化维度。Meta-Harness 提出用自动化搜索替代人工迭代,把「harness 工程师」的工作外包给了 Coding Agent。

🔑 Filesystem-as-memory 是 agentic proposer 的关键设计

为什么不直接把历史塞进 prompt?因为单次评估可能产生 1000 万 token 的 trace,远超任何模型的上下文窗口。文件系统作为外部记忆,让 proposer 自主决定「看什么、跳过什么」,是一种非常优雅的 selective attention 设计。这也验证了 RAG 的底层逻辑:有用的上下文应该被自适应访问,而非整体塞进 prompt。

🔑 Harness Engineering 从实践走向科学

这是 Harness Engineering 第一次作为研究对象被顶级学术团队正式定义。论文不只是做了一个系统,而是建立了一个问题的形式化框架(Harness Optimization Objective),并在三个不同域上系统验证。这意味着接下来会有更多团队跟进这个方向,就像 2020 年之后的 Prompt Engineering 研究爆发一样。

🔑 DSPy 思路的自然延伸

Omar Khattab 是 DSPy 的作者,DSPy 的核心思想是用声明式编程替代手工 prompt engineering,通过优化器自动寻找最佳 prompt。Meta-Harness 是这个思路的升级版:不只是优化 prompt,而是优化整个 harness 程序——包括检索策略、记忆管理、上下文构建逻辑。从优化文本到优化代码,是一个巨大的能力跃升。

引发思考

如果 harness 可以自动发现,那么「Coding Agent 的能力」将不再只由模型决定,而是由 harness 搜索能力决定。今天的 SWE-bench 排行榜,本质上是在比较不同团队手工设计的 harness 的好坏。Meta-Harness 提出的问题是:如果这些 harness 可以自动搜索,排行榜会怎么变?

对于正在构建 AI Coding 工程体系的团队,这篇论文的启示是:与其把大量时间花在「怎么 prompt」上,不如投资建立一套 harness 迭代和评估框架——让 Agent 来优化自己的 harness,你只需要设计评估指标和测试集。

相关阅读

  • DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines (Khattab et al.)
  • Agentic Context Engineering (ACE) — 本文的主要对标 baseline
  • AlphaEvolve / OpenEvolve — 另一类程序搜索方法
  • Harness Engineering 深度解读:从理论到虾哥实战(飞书文档)
  • AGENTS.md 目录式约束文件:AI Coding Agent 的事实标准(Notion)

逍遥云初 | 2026.04.10