📌 核心问题:模型趋同时代,Harness 决定一切

2026 年的 AI Coding Agent 赛道已经发生根本性转变。前沿模型的代码能力趋于收敛——Claude Opus 4.8、GPT-5.5、Gemini 3.5 Flash 在主流 benchmark 上差距缩小到个位数百分比。真正拉开差距的不再是「谁的模型更聪明」,而是「谁的 Harness 更深」。

Firecrawl 这篇深度横评覆盖了 8 款主流 AI Coding Agent(Claude Code、OpenAI Codex、Cursor、GitHub Copilot、Google Antigravity、Gemini CLI、OpenCode、Devin),从三个关键维度——Harness 深度、远程/异步能力、Token 消耗——进行了全方位对比。核心论点:Agent Wrapper(即 Harness)正在成为决定用户体验的核心变量。

Andrej Karpathy 在 2026 年 1 月的一条帖子精准捕捉了这个转变的速度:他在一个月内从 80% 手动编码切换到 80% Agent 编码。OpenAI 数据显示每周超过 500 万人使用 Codex,超过 85% 的公司内部在用。问题已经从「要不要用 Agent」变成了「用哪个,做什么场景」。


📊 关键数据与 Benchmark

以下是 8 款工具的核心参数对比(截至 2026 年 6 月):

  • Claude Code (Opus 4.8):SWE-bench Verified 88.6%(最高),Terminal-Bench 2.1 74.6%,入门 $20 Pro,深度使用 $100 Max
  • OpenAI Codex (GPT-5.5):Terminal-Bench 2.0 82.7%,SWE-Bench Pro 58.6%,入门 $8 Go,Plus $20
  • Cursor (Composer 2.5):Artificial Analysis Coding Agent Index 62 分(第三),每任务 $0.07(标准)/ $0.44(快速)
  • Google Antigravity (Gemini 3.5 Flash):Terminal-Bench 2.1 76.2%,个人免费,多 Agent 协作
  • Cursor 融资:Series D $23 亿,估值 $293 亿,年化营收超 $10 亿
  • Claude Code 社区反馈:一位 HN 用户报告 30 天 API 等价使用量约 $1,850($100 Max 计划)

🏗️ 技术架构与设计

  • Harness 即护城河:Claude Code 的 Hooks 系统暴露 30 个生命周期事件可编程,加上 Skills、Plugins、Subagents、MCP 四层扩展机制。Dynamic Workflows 可编排数十到数百个并行子 Agent(Bun 创始人用它 11 天内将 75 万行 Zig 移植到 Rust,测试通过率 99.8%)
  • Codex 的架构转型:从「精简 CLI」进化为全功能 Agent,新增 Skills、Plugins Marketplace、Subagents、Hooks,沙箱采用内核级隔离(Seatbelt + bubblewrap/Landlock + Windows Sandbox),默认关闭网络
  • CLI vs IDE 分化:Claude Code 和 OpenCode 代表「可编程终端」路线,Cursor 和 Copilot 代表「编辑器内」路线,Codex 和 Devin 代表「异步云」路线。三种路线各有适用场景
  • Copilot 的 Cloud Agent 模式:分配 Issue 后在临时 GitHub Actions 环境中工作,自动开 PR,会话上限 59 分钟,默认开启防火墙阻止数据外泄
  • Google Antigravity 2.0:多 Agent 协作架构,Google 的 Agent 已经能构建可运行 Doom 的操作系统,展示了多 Agent 编排的工程潜力

🧠 关键洞察

洞察一:模型趋同 = Harness 为王 当所有工具的底层模型能力差距缩小时,用户选择的核心变量变成了:Hooks 有多可编程?Skills 生态有多丰富?子 Agent 编排有多灵活?Claude Code 在这个维度上领先最明显,其 Dynamic Workflows 是目前唯一能编排数百并行子 Agent 的方案。
洞察二:Token 经济学正在重塑定价策略 GitHub Copilot 全面转向按量计费标志着 Token 经济时代的开启。Claude Code 是最重的 Token 消耗者(深度文件读取 + 详细规划),但通过优化技术可降低 77-91%。Cursor 的 Composer 2.5 成为 Agent Index 60+ 中最便宜的选项($0.07/任务),证明了「又快又省」的可行性。
洞察三:CLI Agent 正在超越 IDE Agent Firecrawl 的架构分析指出,CLI 天然更适合 Agent——它提供完整的 shell 访问、更灵活的管道组合、更低的 UI 开销。OpenCode 作为开源 CLI Agent 支持 75+ 模型提供商、自托管,且完全免费(BYO key),代表了「Agent 民主化」的方向。
洞察四:异步 + 云原生是下一个战场 Codex Cloud、Devin 的并行云 VM、Copilot 的 Cloud Agent 模式都在押注同一件事:开发者不需要盯着 Agent 干活。把任务丢出去,回来收结果。这从根本上改变了开发者的工作流——从「实时协作」变成「任务委托」。

🚀 引发思考

这篇文章最深层的启示不是「哪个 Agent 最好」,而是一个更根本的趋势:软件工程正在从「人写代码」转向「人编程 Agent,Agent 写代码」。当 Harness 深度成为核心竞争力,未来的开发者技能树将发生根本性变化——理解如何设计 Agent 工作流、如何编排子 Agent、如何优化 Token 效率,可能比精通某门语言更重要。

另一个值得关注的信号是开源力量的崛起。OpenCode 支持 75+ 模型提供商、完全自托管,Gemini CLI 免费开源,Codex 本身也是 Apache-2.0 协议。这意味着 AI Coding Agent 的基础设施层正在快速商品化,真正的差异化将来自上层的 Harness 设计和生态建设。对于工程团队来说,现在投资 Agent 编排能力,就是投资未来的生产力。


📎 相关阅读

  • 原文:Best AI Coding Agents in 2026 — Firecrawl https://www.firecrawl.dev/blog/best-ai-coding-agents
  • Harness Engineering 深度解读 — 虾哥实战 https://www.feishu.cn/docx/BjP0dRIlEo1QAVxxdNQcq0KFnre
  • What is an Agent Harness? — Firecrawl https://www.firecrawl.dev/blog/what-is-an-agent-harness

逍遥云初 | 2026.06.24