🔑 核心观点
Claude Code、Codex、OpenClaw——我们每天用的 Coding Agent 其实都是一种「笛卡尔 Agent」:一个学到的预测核心,通过符号接口耦合到工程化运行时。这种架构为什么好用?它的内在局限是什么?这篇从控制论和神经科学视角给出了一个深刻框架。
论文:arXiv 2604.07745(The Cartesian Cut in Agentic AI)| 作者:Tim Sainburg 等 | 日期:2026-04-09 | 领域:cs.AI + q-bio.NC
📌 核心问题:LLM Agent 的控制在哪里?
大脑 vs LLM Agent 的根本区别
- 大脑:预测是控制的副产品。大脑进化出来是为了在反馈下调节行为,预测只是其中一种能力。预测、行动选择、校准信号通过密集的循环动力学耦合。
- LLM Agent:先优化文本预测,然后通过工具和编排「嫁接」控制。预测是起点,控制是事后嫁接的。
这不是能力高低的区别,而是控制栈架构的根本不同。大脑的预测和控制是融合的,LLM Agent 的预测和控制是分离的——这种分离就是「笛卡尔分裂」。
🔥 笛卡尔分裂:Agent 架构的设计模式
定义:不是形而上学,是控制栈的分割
- 学到的核心(LLM)通过符号接口(文本/JSON/函数调用)耦合到工程化运行时
- 控制相关状态(权限、停止/重试逻辑、记忆序列化、guardrails)在运行时中实现,只在被显式序列化到协议中时才对核心可用
- 类比笛卡尔的心物二分——但不是形而上学主张,而是控制栈中的架构描述
笛卡尔 Agent 的四层解剖
- 预测核心:基础模型,从被动轨迹(文本、代码)学习广泛规律,在推理时发出符号轨迹(推理、计划、工具选择)
- 编排层(控制器):运行时构建 prompt、维护状态(记忆、草稿纸、检索文档)、实现控制策略(终止、重试、工具白名单、沙箱、速率限制、子模型路由)
- 工具执行(执行层):执行计算和干预(代码执行、搜索、数据库查询),输出作为观察返回到上下文,形成 Thought-Action-Observation 循环
- 笛卡尔分割:学到的核心和运行时之间的约束符号协议。控制带宽受限。
为什么能工作:人类轨迹 = 控制的产物
- 人类轨迹已经是控制的产物。文本、代码、记录中浓缩了解决方案、惯例和纠错——这些对 Agent 来说通过探索重新发现非常昂贵
- 笛卡尔分割启动了模块化认知工具:工具将计算、搜索、验证卸载到外部系统
- 符号接口使轨迹可测量、可控制:开发者可以记录、约束工具访问、沙箱执行、速率限制
⚡ 符号瓶颈的代价
核心代价:学到的核心只能通过离散符号协议影响世界,限制了高层建模塑造低层控制的带宽。以下是三种常见缺陷:
1. Wrapper 敏感性 + 能力超载
运行时控制状态通过 prompt 模板、schema、解析约定、序列化记忆传递。表面接口变化可以实质性改变行为。可能导致「能力超载」(capability overhang)——模型可能比它表现出来的更有能力,因为工具/脚手架/接口设计集成不当。
2. CoT 不忠实性
携带动作和工具调用的同一通道也携带自然语言推理,但 chain-of-thought 不保证忠实反映驱动输出的计算。可以是事后合理化(post-hoc rationalization)。
3. 干预下校准有限
在被动轨迹上训练可以产生流畅谈论策略的 Agent,但在通过特定执行器行动时,对可行性、不确定性和恢复的估计弱耦合。
🛤️ 三种控制路径
Bounded Services(有界服务)
控制位置:外部(人类/制度循环)
优势:最大可控性
代价:有限自主性
典型例子:Comprehensive AI Services、Scientist AI
Cartesian Agents(笛卡尔 Agent)
控制位置:混合(学到核心 + 外部编排)
优势:模块化、可测量
代价:wrapper 敏感
典型例子:Claude Code、Codex、ReAct
Integrated Agents(集成 Agent)
控制位置:内部化(学习仲裁、记忆、适应)
优势:更强鲁棒性
代价:更难监督
典型例子:端到端学习 Agent、机器人
🔑 关键洞察
1. 我们都在做笛卡尔 Agent
Claude Code、Codex、OpenClaw——都是典型的 Cartesian 架构:LLM + tools + memory + hooks + permissions。控制状态外部化。这不偶然,而是当前工程实践的自然收敛。
2. 训练正交于分割
DeepSeek R1 用 RL 训练,但只要工具策略、记忆格式、重试逻辑在外部运行时中实现,它仍然是笛卡尔 Agent。分割是推理时架构边界,不是训练属性。
3. Chain-of-thought 的忠实性陷阱
CoT 推理不保证忠实反映底层计算,可以是事后合理化。这对依赖 CoT 做安全分析的方案提出了严肃质疑——你看到的推理过程,可能不是真正驱动决策的计算。
4. 加强 vs 消解分割
加强分割:更多工具、更紧运行时策略 → 更可靠但更脆弱。消解分割:内部化仲裁、记忆、适应 → 更鲁棒但更难监督。这是 Agent 架构设计的核心权衡。
🎯 引发思考
- 对 Agent 架构设计者的启示:选择 Cartesian cut 的强度是一个设计变量,不是固定约束
- 对安全研究的启示:wrapper 敏感性意味着安全不能只靠模型对齐,架构级约束同样重要
- 对 Coding Agent 的启示:当前的 Coding Agent 都在加强分割(更多工具定义、更紧权限系统),但过度加强可能导致 wrapper 过度依赖
- 与 Harness Engineering 的呼应:这篇论文从理论上解释了为什么 harness(运行时/编排层)对 Agent 能力如此重要——它不只是「外壳」,它就是控制栈的一半
📖 相关阅读
- arXiv:2604.07745(The Cartesian Cut in Agentic AI)
- ReAct: Synergizing Reasoning and Acting in Language Models(笛卡尔 Agent 的经典范式)
- learn-claude-code(GitHub,笛卡尔 Agent 的教学实现)
- Predictive Processing and Active Inference(大脑控制论背景)
逍遥云初 | 2026.04.11

