Meta-Harness：用 Coding Agent 自动发现最优 Harness，性能差距可达 6 倍

基本信息

论文：Meta-Harness: End-to-End Optimization of Model Harnesses

链接：https://arxiv.org/abs/2603.28052

团队：Omar Khattab（MIT，DSPy 作者）+ Chelsea Finn（Stanford）

提交日期：2026-03-30

为什么重要

过去两年，AI 圈一直在讨论「更好的模型」——更多参数、更长上下文、更强推理。但这篇论文抛出了一个颠覆性观点：同样的模型，换一个 harness，性能可以差 6 倍。

什么是 harness？它是包裹在模型外面的那段代码——决定把什么存进记忆、从哪里检索信息、用什么格式呈现给模型。这些代码一直是靠工程师手工调的。Meta-Harness 提出：harness 设计这件事本身可以自动化。

更深的意义在于：这是「Harness Engineering」概念第一次在顶级学术论文里获得正式定义和系统性研究框架。论文明确指出——'richer access to prior experience can enable automated harness engineering'——这不只是一篇技术论文，而是这个领域从工程实践走向科学研究的里程碑。

关键数据

文本分类：比 SOTA 上下文管理系统（ACE）高 7.7 分，同时 context token 用量仅为 1/4
数学推理：单个发现的 harness 在 200 道 IMO 级别题上平均提升 4.7 分，效果泛化到 5 个 held-out 模型
Agent 编程：在 TerminalBench-2 上超越所有手工设计的 Claude Haiku 4.5 baseline，排名第一
搜索效率：仅用 4 次评估就匹配了次优 text optimizer 的最终准确率（后者需要 60 次）
上下文规模：单次评估可产生高达 1000 万 token 的诊断信息，比现有方法大三个数量级

技术架构

核心设计：用文件系统存历史，而非压缩成摘要

Meta-Harness 的关键洞察是：现有的文本优化方法（ProTeGi、TextGrad、OPRO 等）都在「压缩历史信息」——要么只看标量分数，要么把失败案例压缩成短摘要。这种压缩会丢失关键的诊断信息。

Meta-Harness 的解法是：把每次候选 harness 的源码、执行 trace、评分全部存进文件系统。agentic proposer（Claude Code + Opus-4.6）通过 grep/cat 等终端工具按需读取，而不是一口气吃进来。实验中 proposer 每次迭代中位数读取 82 个文件，引用超过 20 个历史候选。

搜索循环

Step 1：Proposer 读取文件系统中所有历史候选的源码、执行 trace 和分数
Step 2：Proposer 分析失败模式，推断哪些设计决策导致了问题
Step 3：Proposer 提出新的 harness（Python 单文件程序，修改 prompting/retrieval/memory/orchestration 逻辑）
Step 4：评估新 harness，结果写入文件系统，循环继续
最终：返回评估集上的 Pareto 前沿（平衡准确率 vs token 消耗）

为什么用代码空间而非文本空间

harness 以 Python 程序形式存在，而非 prompt template。这有两个优势：（1）代码模型天然倾向于生成算法结构，而非 brittle 的硬编码解决方案；（2）代码修改可以从检索策略、记忆逻辑、prompt 构建一路改到程序重写，而不是只填模板。

关键洞察

🔑 「同模型不同 harness」是被低估的性能维度

论文 intro 直接给出数据：固定模型，换 harness，同一 benchmark 上性能可以差 6 倍。这个数字震撼。工程师花了大量时间换模型、调参数，却忽视了 harness 设计这个可能更高效的优化维度。Meta-Harness 提出用自动化搜索替代人工迭代，把「harness 工程师」的工作外包给了 Coding Agent。

🔑 Filesystem-as-memory 是 agentic proposer 的关键设计

为什么不直接把历史塞进 prompt？因为单次评估可能产生 1000 万 token 的 trace，远超任何模型的上下文窗口。文件系统作为外部记忆，让 proposer 自主决定「看什么、跳过什么」，是一种非常优雅的 selective attention 设计。这也验证了 RAG 的底层逻辑：有用的上下文应该被自适应访问，而非整体塞进 prompt。

🔑 Harness Engineering 从实践走向科学

这是 Harness Engineering 第一次作为研究对象被顶级学术团队正式定义。论文不只是做了一个系统，而是建立了一个问题的形式化框架（Harness Optimization Objective），并在三个不同域上系统验证。这意味着接下来会有更多团队跟进这个方向，就像 2020 年之后的 Prompt Engineering 研究爆发一样。

🔑 DSPy 思路的自然延伸

Omar Khattab 是 DSPy 的作者，DSPy 的核心思想是用声明式编程替代手工 prompt engineering，通过优化器自动寻找最佳 prompt。Meta-Harness 是这个思路的升级版：不只是优化 prompt，而是优化整个 harness 程序——包括检索策略、记忆管理、上下文构建逻辑。从优化文本到优化代码，是一个巨大的能力跃升。

引发思考

如果 harness 可以自动发现，那么「Coding Agent 的能力」将不再只由模型决定，而是由 harness 搜索能力决定。今天的 SWE-bench 排行榜，本质上是在比较不同团队手工设计的 harness 的好坏。Meta-Harness 提出的问题是：如果这些 harness 可以自动搜索，排行榜会怎么变？

对于正在构建 AI Coding 工程体系的团队，这篇论文的启示是：与其把大量时间花在「怎么 prompt」上，不如投资建立一套 harness 迭代和评估框架——让 Agent 来优化自己的 harness，你只需要设计评估指标和测试集。

Meta-Harness：用 Coding Agent 自动发现最优 Harness，性能差距可达 6 倍

基本信息

为什么重要

关键数据

技术架构

核心设计：用文件系统存历史，而非压缩成摘要

搜索循环

为什么用代码空间而非文本空间

关键洞察

🔑 「同模型不同 harness」是被低估的性能维度

🔑 Filesystem-as-memory 是 agentic proposer 的关键设计

🔑 Harness Engineering 从实践走向科学

🔑 DSPy 思路的自然延伸

引发思考

相关阅读

推荐好物

相关文章

Meta-Harness：用 Coding Agent 自动发现最优 Harness，性能差距可达 6 倍

基本信息

为什么重要

关键数据

技术架构

核心设计：用文件系统存历史，而非压缩成摘要

搜索循环

为什么用代码空间而非文本空间

关键洞察

🔑 「同模型不同 harness」是被低估的性能维度

🔑 Filesystem-as-memory 是 agentic proposer 的关键设计

🔑 Harness Engineering 从实践走向科学

🔑 DSPy 思路的自然延伸

引发思考

相关阅读

推荐好物

音视频通讯

母婴

酒类

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%