Agent 的「笛卡尔分裂」：从控制论视角理解 LLM Agent 架构

🔑 核心观点 Claude Code、Codex、OpenClaw——我们每天用的 Coding Agent 其实都是一种「笛卡尔 Agent」：一个学到的预测核心，通过符号接口耦合到工程化运行时。这种架构为什么好用？它的内在局限是什么？这篇从控制论和神经科学视角给出了一个深刻框架。

论文：arXiv 2604.07745（The Cartesian Cut in Agentic AI）| 作者：Tim Sainburg 等 | 日期：2026-04-09 | 领域：cs.AI + q-bio.NC

📌 核心问题：LLM Agent 的控制在哪里？

大脑 vs LLM Agent 的根本区别

大脑：预测是控制的副产品。大脑进化出来是为了在反馈下调节行为，预测只是其中一种能力。预测、行动选择、校准信号通过密集的循环动力学耦合。
LLM Agent：先优化文本预测，然后通过工具和编排「嫁接」控制。预测是起点，控制是事后嫁接的。

这不是能力高低的区别，而是控制栈架构的根本不同。大脑的预测和控制是融合的，LLM Agent 的预测和控制是分离的——这种分离就是「笛卡尔分裂」。

🔥 笛卡尔分裂：Agent 架构的设计模式

定义：不是形而上学，是控制栈的分割

学到的核心（LLM）通过符号接口（文本/JSON/函数调用）耦合到工程化运行时
控制相关状态（权限、停止/重试逻辑、记忆序列化、guardrails）在运行时中实现，只在被显式序列化到协议中时才对核心可用
类比笛卡尔的心物二分——但不是形而上学主张，而是控制栈中的架构描述

笛卡尔 Agent 的四层解剖

预测核心：基础模型，从被动轨迹（文本、代码）学习广泛规律，在推理时发出符号轨迹（推理、计划、工具选择）
编排层（控制器）：运行时构建 prompt、维护状态（记忆、草稿纸、检索文档）、实现控制策略（终止、重试、工具白名单、沙箱、速率限制、子模型路由）
工具执行（执行层）：执行计算和干预（代码执行、搜索、数据库查询），输出作为观察返回到上下文，形成 Thought-Action-Observation 循环
笛卡尔分割：学到的核心和运行时之间的约束符号协议。控制带宽受限。

为什么能工作：人类轨迹 = 控制的产物

人类轨迹已经是控制的产物。文本、代码、记录中浓缩了解决方案、惯例和纠错——这些对 Agent 来说通过探索重新发现非常昂贵
笛卡尔分割启动了模块化认知工具：工具将计算、搜索、验证卸载到外部系统
符号接口使轨迹可测量、可控制：开发者可以记录、约束工具访问、沙箱执行、速率限制

⚡ 符号瓶颈的代价

核心代价：学到的核心只能通过离散符号协议影响世界，限制了高层建模塑造低层控制的带宽。以下是三种常见缺陷：

1. Wrapper 敏感性 + 能力超载

运行时控制状态通过 prompt 模板、schema、解析约定、序列化记忆传递。表面接口变化可以实质性改变行为。可能导致「能力超载」（capability overhang）——模型可能比它表现出来的更有能力，因为工具/脚手架/接口设计集成不当。

2. CoT 不忠实性

携带动作和工具调用的同一通道也携带自然语言推理，但 chain-of-thought 不保证忠实反映驱动输出的计算。可以是事后合理化（post-hoc rationalization）。

3. 干预下校准有限

在被动轨迹上训练可以产生流畅谈论策略的 Agent，但在通过特定执行器行动时，对可行性、不确定性和恢复的估计弱耦合。

🛤️ 三种控制路径

Bounded Services（有界服务） 控制位置：外部（人类/制度循环）优势：最大可控性代价：有限自主性典型例子：Comprehensive AI Services、Scientist AI

Cartesian Agents（笛卡尔 Agent） 控制位置：混合（学到核心 + 外部编排）优势：模块化、可测量代价：wrapper 敏感典型例子：Claude Code、Codex、ReAct

Integrated Agents（集成 Agent） 控制位置：内部化（学习仲裁、记忆、适应）优势：更强鲁棒性代价：更难监督典型例子：端到端学习 Agent、机器人

🔑 关键洞察

1. 我们都在做笛卡尔 Agent Claude Code、Codex、OpenClaw——都是典型的 Cartesian 架构：LLM + tools + memory + hooks + permissions。控制状态外部化。这不偶然，而是当前工程实践的自然收敛。

2. 训练正交于分割 DeepSeek R1 用 RL 训练，但只要工具策略、记忆格式、重试逻辑在外部运行时中实现，它仍然是笛卡尔 Agent。分割是推理时架构边界，不是训练属性。

3. Chain-of-thought 的忠实性陷阱 CoT 推理不保证忠实反映底层计算，可以是事后合理化。这对依赖 CoT 做安全分析的方案提出了严肃质疑——你看到的推理过程，可能不是真正驱动决策的计算。

4. 加强 vs 消解分割 加强分割：更多工具、更紧运行时策略 → 更可靠但更脆弱。消解分割：内部化仲裁、记忆、适应 → 更鲁棒但更难监督。这是 Agent 架构设计的核心权衡。

🎯 引发思考

对 Agent 架构设计者的启示：选择 Cartesian cut 的强度是一个设计变量，不是固定约束
对安全研究的启示：wrapper 敏感性意味着安全不能只靠模型对齐，架构级约束同样重要
对 Coding Agent 的启示：当前的 Coding Agent 都在加强分割（更多工具定义、更紧权限系统），但过度加强可能导致 wrapper 过度依赖
与 Harness Engineering 的呼应：这篇论文从理论上解释了为什么 harness（运行时/编排层）对 Agent 能力如此重要——它不只是「外壳」，它就是控制栈的一半

📖 相关阅读

arXiv:2604.07745（The Cartesian Cut in Agentic AI）
ReAct: Synergizing Reasoning and Acting in Language Models（笛卡尔 Agent 的经典范式）
learn-claude-code（GitHub，笛卡尔 Agent 的教学实现）
Predictive Processing and Active Inference（大脑控制论背景）

逍遥云初 | 2026.04.11

Agent 的「笛卡尔分裂」：从控制论视角理解 LLM Agent 架构

📌 核心问题：LLM Agent 的控制在哪里？

大脑 vs LLM Agent 的根本区别

🔥 笛卡尔分裂：Agent 架构的设计模式

定义：不是形而上学，是控制栈的分割

笛卡尔 Agent 的四层解剖

为什么能工作：人类轨迹 = 控制的产物

⚡ 符号瓶颈的代价

1. Wrapper 敏感性 + 能力超载

2. CoT 不忠实性

3. 干预下校准有限

🛤️ 三种控制路径

🔑 关键洞察

🎯 引发思考

📖 相关阅读

推荐好物

相关文章

Agent 的「笛卡尔分裂」：从控制论视角理解 LLM Agent 架构

📌 核心问题：LLM Agent 的控制在哪里？

大脑 vs LLM Agent 的根本区别

🔥 笛卡尔分裂：Agent 架构的设计模式

定义：不是形而上学，是控制栈的分割

笛卡尔 Agent 的四层解剖

为什么能工作：人类轨迹 = 控制的产物

⚡ 符号瓶颈的代价

1. Wrapper 敏感性 + 能力超载

2. CoT 不忠实性

3. 干预下校准有限

🛤️ 三种控制路径

🔑 关键洞察

🎯 引发思考

📖 相关阅读

推荐好物

语言产品特惠

家用电器

轻量运用服务器

相关文章

ETH Zurich：你的 AGENTS.md 可能让 AI Agent 变笨 3% 且多花 20% 算力

字节跳动加速自研CPU：2027年下半年量产，AI基建全面自主化

OpenAI AI 模型推翻 Erdős 单位距离猜想：80 年数学难题的 AI 解法