Mise en Place for Agentic Coding：用「厨房备菜」思维重构 AI 编程工作流

📄 论文：arXiv:2605.05400 | VibeX 2026 Workshop (EASE 2026, Glasgow)

📅 发表日期：2026 年 5 月 6 日（会议 6 月 9-12 日）

📌 核心问题：Vibe Coding 的系统性对齐危机

2026 年，AI 编码助手已经能从自然语言描述搭建完整应用，GitHub Copilot 的受控实验显示开发者效率提升 21-55%。然而，Karpathy 提出的「Vibe Coding」模式——开发者描述意图，Agent 生成代码，偏差通过迭代修正——正在暴露一个系统性问题：缺乏充分上下文的 Agent 生成的代码需要大量调试和重构。

Veracode 2025 年的分析显示，45% 的 AI 生成代码存在安全缺陷。开发者的心智模型与 Agent 实际行为频繁错位，导致不正确的代码建议被不当接受。这指向一个「生产力悖论」：AI Agent 加速了产出，同时扩大了返工和缺陷的面积。Agentic Coding 的瓶颈不在代码生成，而在于开发者意图与 Agent 输出之间的对齐——规范遵从、架构保真度、低修正提交比。

📌 关键数据

GitHub Copilot 效率提升：21-55%（Peng et al., 2023 受控实验）
AI 生成代码安全缺陷率：45%（Veracode, 2025）
Hackathon 案例：2 小时准备 → 4 个并行 Agent → 21 分钟主动实现 → 8,496 行代码，零架构返工
准备-执行比率：5.7:1（2 小时准备 vs ~21 分钟主动实现）
规划-代码比率：1.10:1（9,386 词规划 vs 8,496 行源码）
任务完成中位数：5.9 分钟/bead；Bug 修复中位数：1.2 分钟

📌 技术架构：MEP 三阶段方法论

Phase 1 - 上下文锚定（Contextual Grounding）：将领域专家知识和隐性知识外部化为结构化文档（briefing docs），以逆向设计思维从期望产出出发而非从功能出发
Phase 2 - 协作式规格化（Collaborative Specification）：通过人机对话产出详细设计制品，关键机制是将价值判断编码为规格约束——排除什么与包含什么同等重要
Phase 3 - 任务分解（Task Decomposition）：将规格转化为结构化、依赖感知的任务记录（Beads），支持 n 个 Agent 并行执行，协调开销从运行时转移到准备时
理论根基：Polanyi 隐性知识理论（1966）+ Wiggins & McTighe 逆向设计（1998）+ Nonaka & Takeuchi SECI 模型（1995）

🔑 关键洞察 1：Agentic Coding 的瓶颈是「对齐」而非「生成」

The bottleneck in agentic coding is not code generation but alignment — ensuring that what agents build matches what practitioners intend.

论文精准地指出了当前 AI 编程的核心矛盾：模型能力在飞速提升，但开发者与 Agent 之间的「语义鸿沟」没有同步收窄。Vibe Coding 模式将对齐问题推迟到迭代修正阶段，而 MEP 将对齐工作前移到准备阶段。这个洞察与 Harness Engineering 的核心思想高度一致——环境设计比模型调优更重要。

🔑 关键洞察 2：「上下文流利度」是开发者的新兴核心能力

Context fluency — the ability to create rich, structured context that agents can act on — is an emerging developer skill.

论文引入的「上下文流利度」概念极具启发性。未来的开发者竞争力不在于写代码的速度，而在于将隐性知识转化为 Agent 可消费的结构化上下文的能力。这与 Harness Engineering 中「渐进式披露」和「黄金原则编码」的理念异曲同工——好的上下文设计就是最好的 prompt engineering。

🔑 关键洞察 3：准备时间是投资而非成本

The coordination burden shifts from runtime to preparation time, where human judgment about system architecture is most valuable.

Hackathon 案例最有说服力：大多数团队在前 15 分钟就开始编码，而 MEP 团队花了 2 小时准备。结果是 4 个 Agent 并行执行时零架构返工，最终赢得了比赛。准备-执行比 5.7:1 看起来「浪费」，但实际上把最需要人类判断力的架构决策前置了，让 Agent 在执行阶段不需要跨 Agent 协调。

🔑 关键洞察 4：MEP 是 Prompt Engineering 的「升维」

Prompt engineering tunes individual model invocations, whereas MEP structures the workflow-level artifacts that precede and constrain those invocations.

MEP 不是另一种 prompt engineering，而是工作流级别的上下文工程。Prompt engineering 调的是单次调用的参数，MEP 结构化的是整个工作流的制品（规格、分解、外部化知识）。两者的粒度不同，但目标一致：让模型在正确的上下文中做正确的事。这正是 context engineering 这个概念从 prompt engineering 中独立出来的意义。

🚀 引发思考

这篇论文对 AI 编程实践者最大的启示是：别急着写代码。在 Agent 时代，开发者的核心价值正在从「写代码」转向「设计上下文」。那些能在 Agent 动手前，把领域知识、设计意图、任务边界清晰地外部化为结构化制品的人，将获得指数级的效率优势。

这也呼应了 Harness Engineering 的核心命题：好的环境设计比好的模型更重要。MEP 提供了一个可操作的框架，将这个抽象命题落地为三阶段方法论。对于正在探索 AI 辅助编程最佳实践的团队来说，这是一份值得深入研读的指南。

📎 相关阅读

Karpathy, 2025 — Vibe Coding 概念原始提出
Horthy, 2025 — Research-Plan-Implement (RPI) 方法论
GitHub Spec Kit, 2025 — 规格驱动开发工具
Yegge, 2025 — Beads 框架：结构化任务记录
Peng et al., 2023 — GitHub Copilot 生产力实验 (21-55% 提升)

逍遥云初 | 2026.06.17

Mise en Place for Agentic Coding：用「厨房备菜」思维重构 AI 编程工作流