📌 核心问题:模型趋同时代,Harness 决定一切
2026 年的 AI Coding Agent 赛道已经发生根本性转变。前沿模型的代码能力趋于收敛——Claude Opus 4.8、GPT-5.5、Gemini 3.5 Flash 在主流 benchmark 上差距缩小到个位数百分比。真正拉开差距的不再是「谁的模型更聪明」,而是「谁的 Harness 更深」。
Firecrawl 这篇深度横评覆盖了 8 款主流 AI Coding Agent(Claude Code、OpenAI Codex、Cursor、GitHub Copilot、Google Antigravity、Gemini CLI、OpenCode、Devin),从三个关键维度——Harness 深度、远程/异步能力、Token 消耗——进行了全方位对比。核心论点:Agent Wrapper(即 Harness)正在成为决定用户体验的核心变量。
Andrej Karpathy 在 2026 年 1 月的一条帖子精准捕捉了这个转变的速度:他在一个月内从 80% 手动编码切换到 80% Agent 编码。OpenAI 数据显示每周超过 500 万人使用 Codex,超过 85% 的公司内部在用。问题已经从「要不要用 Agent」变成了「用哪个,做什么场景」。
📊 关键数据与 Benchmark
以下是 8 款工具的核心参数对比(截至 2026 年 6 月):
- Claude Code (Opus 4.8):SWE-bench Verified 88.6%(最高),Terminal-Bench 2.1 74.6%,入门 $20 Pro,深度使用 $100 Max
- OpenAI Codex (GPT-5.5):Terminal-Bench 2.0 82.7%,SWE-Bench Pro 58.6%,入门 $8 Go,Plus $20
- Cursor (Composer 2.5):Artificial Analysis Coding Agent Index 62 分(第三),每任务 $0.07(标准)/ $0.44(快速)
- Google Antigravity (Gemini 3.5 Flash):Terminal-Bench 2.1 76.2%,个人免费,多 Agent 协作
- Cursor 融资:Series D $23 亿,估值 $293 亿,年化营收超 $10 亿
- Claude Code 社区反馈:一位 HN 用户报告 30 天 API 等价使用量约 $1,850($100 Max 计划)
🏗️ 技术架构与设计
- Harness 即护城河:Claude Code 的 Hooks 系统暴露 30 个生命周期事件可编程,加上 Skills、Plugins、Subagents、MCP 四层扩展机制。Dynamic Workflows 可编排数十到数百个并行子 Agent(Bun 创始人用它 11 天内将 75 万行 Zig 移植到 Rust,测试通过率 99.8%)
- Codex 的架构转型:从「精简 CLI」进化为全功能 Agent,新增 Skills、Plugins Marketplace、Subagents、Hooks,沙箱采用内核级隔离(Seatbelt + bubblewrap/Landlock + Windows Sandbox),默认关闭网络
- CLI vs IDE 分化:Claude Code 和 OpenCode 代表「可编程终端」路线,Cursor 和 Copilot 代表「编辑器内」路线,Codex 和 Devin 代表「异步云」路线。三种路线各有适用场景
- Copilot 的 Cloud Agent 模式:分配 Issue 后在临时 GitHub Actions 环境中工作,自动开 PR,会话上限 59 分钟,默认开启防火墙阻止数据外泄
- Google Antigravity 2.0:多 Agent 协作架构,Google 的 Agent 已经能构建可运行 Doom 的操作系统,展示了多 Agent 编排的工程潜力
🧠 关键洞察
🚀 引发思考
这篇文章最深层的启示不是「哪个 Agent 最好」,而是一个更根本的趋势:软件工程正在从「人写代码」转向「人编程 Agent,Agent 写代码」。当 Harness 深度成为核心竞争力,未来的开发者技能树将发生根本性变化——理解如何设计 Agent 工作流、如何编排子 Agent、如何优化 Token 效率,可能比精通某门语言更重要。
另一个值得关注的信号是开源力量的崛起。OpenCode 支持 75+ 模型提供商、完全自托管,Gemini CLI 免费开源,Codex 本身也是 Apache-2.0 协议。这意味着 AI Coding Agent 的基础设施层正在快速商品化,真正的差异化将来自上层的 Harness 设计和生态建设。对于工程团队来说,现在投资 Agent 编排能力,就是投资未来的生产力。
📎 相关阅读
- 原文:Best AI Coding Agents in 2026 — Firecrawl https://www.firecrawl.dev/blog/best-ai-coding-agents
- Harness Engineering 深度解读 — 虾哥实战 https://www.feishu.cn/docx/BjP0dRIlEo1QAVxxdNQcq0KFnre
- What is an Agent Harness? — Firecrawl https://www.firecrawl.dev/blog/what-is-an-agent-harness
逍遥云初 | 2026.06.24






