📰 论文速览
北京大学认知科学博士、独立研究者 Hongju Pae(裴洪柱)在 arXiv 发表论文《Body-Grounded Perspective Formation and Conative Attunement in Artificial Agents》(2026 年 6 月),直指当前 AI 架构的一个根本缺陷:AI 没有身体,因此永远无法形成「第一人称视角」。这篇论文的核心论点是:现有 AI 处理的「去视角、可无限复制的信息」,与人类「以身体为原点的世界」存在结构性差异——这个差异,决定了 AI 永远无法真正「拥有」一个属于它的世界。
论文提出两个核心概念:视角(Perspective) 和 意动(Conation)。人类的所有认知都从「我的身体在此处」出发,世界永远是「从我这儿的角度」看到的画面;同时人脑中存在「意动」——伸手去拿书的倾向、饥饿时寻找食物的内驱力。这两个维度在现有 AI 系统中完全缺失。
更深层的判断是:只做行为的模拟仿真,永远造不出真正的具身智能。当前主流的计算机视觉、强化学习、大语言模型,处理的都是「去视角」的、可无限复制的信息。模型认为「桌子上有书」在任何时候、从任何角度、由任何身体执行都成立——这是标准的第三人称客观主义。人类经验恰恰相反:世界是围绕「我」的身体给出的。
🔬 技术演进 / 核心问题
- 第一人称视角的本体论缺失:现有 AI 系统的训练数据本质是「上帝视角」的标注,没有「从这儿出发」的空间锚点
- 「意动」(Conation)的算法空缺:AI 没有内驱力、没有「倾向于做某事」的状态空间,与强化学习中的 reward 概念有本质区别
- 视觉语言模型(VLM)的盲区:当前最好的多模态模型可以描述「桌子上的书」,但无法回答「你看到书时想做什么」
- 具身智能的真正瓶颈不在硬件:波士顿动力、宇树的硬件早已过关,真正的瓶颈是「视角模型」和「意动机制」缺失
🔑 关键洞察
洞察一:视角是「第一人称」的本体论问题,不是技术问题
大多数 AI 研究者把「让 AI 理解世界」当成一个表征学习问题。但 Pae 论文揭示了一个更深层的哲学困境:表征学习只能学到「世界是什么样的」,无法学到「世界对我来说是什么样的」。前者是第三人称客观描述,后者是第一人称主观视角——这是两种完全不同的本体论。当前的 VLA(Vision-Language-Action)模型、RT-2、PaLM-E 等所有主流具身方案,都在用第三人称数据训练第一人称智能体——结构性偏差是必然的。
洞察二:「意动」比「智能」更接近 AGI 的真问题
1956 年达特茅斯会议把 AI 定义为「让机器做只有人能做的事」。但 Pae 论文指出:人类智能的本质不是「理解」而是「驱动」——你看到书是因为「想读」,看到食物是因为「想吃」。AI 可以无限逼近人类的认知能力,但缺乏驱动认知的「意动」,就永远只是一台精密的应答机器。这给当前「追求 AGI」的资本叙事投下了一个长阴影。
洞察三:具身智能需要「身体-视角-意动」三体合一
论文给出的解法方向是:未来的具身智能架构必须同时具备三个要素——物理身体(硬件)、第一人称视角(感知)、意动机制(驱动)。三者缺一不可。波士顿动力的 Atlas 解决了「身体」,OpenAI 的 o3 解决了部分「认知」,但全球范围内还没有任何系统真正解决了「视角+意动」的整合。这是一个尚未被开发的科学前沿。
💡 引发思考
这篇论文给当下火热的具身智能赛道泼了一盆「哲学冷水」:过去三年,资本和人才蜂拥而入具身智能领域,但绝大多数努力都在「让机器人动作更流畅」「让 VLA 模型准确率更高」。Pae 的论证暗示:这些方向可能从一开始就走错了路。
真正的具身智能突破,可能要等到三个条件的成熟:能持续运行 24 小时以上的高密度电池(解决身体续航)、能进行第一人称视频流输入的新型传感器(解决视角锚定)、以及能模拟「意动」的强化学习新范式(解决驱动机制)。在硬件、算法、哲学三个层面同时取得突破之前,「具身智能的 GPT 时刻」不会到来。
更广义的启示是:AI 研究需要重新审视「第一人称经验」这个被主流学术界系统性忽略的维度。当所有数据集都是「上帝视角」标注、所有 benchmark 都是「客观任务」评估时,AI 自然学不会「作为主体的世界体验」。这个盲区,可能是通往 AGI 路上最深的沟壑之一。
📎 相关阅读
- 原文:Body-Grounded Perspective Formation and Conative Attunement in Artificial Agents — arXiv 2026.06
- 相关解读:当 AI 学会「有身体」:arXiv 2026 论文深度解读 — CSDN,2026-06-13
- 历史背景:Enactivism 与具身认知(Embodied Cognition)哲学传统
逍遥云初 | 2026.06.23






