📌 核心问题

2026年2月,OpenAI联合多位理论物理学家发表了一篇重磅预印本论文,展示了GPT-5.2在理论物理学领域推导出一个全新结果。这不是AI辅助写论文,而是AI直接参与了科学发现的核心过程——从复杂表达式中发现简洁模式,并提出一个对任意n都成立的通用公式。

论文聚焦于粒子物理中的散射振幅(scattering amplitude)。散射振幅是物理学家用来计算粒子以特定方式相互作用概率的核心量。对于胶子(gluon,传递强核力的粒子),许多振幅在「树图层级」(tree level,即只保留最简单、无量子回路的费曼图)取异常简洁的形式。这种简化反复揭示了量子场论中更深层的结构。

然而,有一种情况一直被学界视为「不存在」:当一个胶子具有负螺旋度(negative helicity),其余n-1个胶子具有正螺旋度时,标准教科书论证表明对应的树图振幅必须为零。因此,这种构型长期被忽略。本论文证明了这个结论过于绝对——在特定的「半共线」(half-collinear)运动学切片上,该振幅并不消失。

📊 关键数据

  • 论文标题:Single-minus gluon tree amplitudes are nonzero
  • arXiv链接:arxiv.org/abs/2602.12176
  • 作者团队:Alfredo Guevara (IAS)、Alex Lupsasca (Vanderbilt & OpenAI)、David Skinner (Cambridge)、Andrew Strominger (Harvard)、Kevin Weil (OpenAI)
  • 人类作者手算到n=6的振幅,表达式极其复杂(论文Eq.29-32),复杂度随n超指数增长
  • GPT-5.2 Pro将表达式大幅简化(Eq.35-38),并从中发现通用模式,提出对任意n成立的公式(Eq.39)
  • 内部脚手架版本GPT-5.2用约12小时推理完成形式化证明
  • 公式通过Berends-Giele递推关系和soft theorem双重验证

🏗️ 技术架构与方法

  • 人机协作发现流程:人类物理学家手算小规模案例(n<=6) -> GPT-5.2 Pro简化表达式 -> 发现模式 -> 提出通用猜想公式
  • Scaffolded推理验证:内部搭建的GPT-5.2版本进行约12小时的长链推理,独立重新推导出相同公式并给出形式化证明
  • 多层交叉验证:公式通过解析方法验证满足Berends-Giele递推关系,同时满足soft theorem约束
  • 从胶子到引力子的推广:AI辅助将结果从胶子振幅扩展到引力子振幅,验证了方法的通用性

🔑 关键洞察

AI从「模式识别者」到「科学发现者」的跃迁 GPT-5.2在这项工作中的角色不是辅助性的。它面对人类物理学家手算出的复杂表达式,完成了两项关键任务:(1) 将超指数复杂度的费曼图展开大幅简化;(2) 从简化后的特例中识别出通用模式并提出猜想公式。这意味着AI已经进入了「科学发现」的核心循环——不只是分析数据,而是从复杂性中提取简洁结构。Nima Arkani-Hamed(IAS教授)明确指出:「寻找简洁公式一直是我觉得可以被计算机自动化的任务,这个论文的例子特别适合利用现代AI的能力。」
12小时长链推理:Extended Thinking的科学级应用 内部脚手架版本的GPT-5.2用约12小时完成从猜想到证明的完整推理链。这不是简单的「想得更久」,而是展示了AI在长时间、多步骤、需要回溯和修正的推理任务中的能力边界正在快速扩展。对于理论物理这类需要深度推理的领域,Extended Thinking类能力的价值远超日常编程辅助——它可能成为未来科学发现的标准工具。
「简洁公式模式识别」:一个新工具类别的诞生 Arkani-Hamed的评论揭示了一个深远趋势:理论物理学中大量「看起来极其复杂的表达式最终被发现极其简洁」的现象,可能正是LLM最擅长的领域。这暗示了一个全新的工具类别——「通用简洁公式模式识别工具」。从费曼图到弦论散射振幅,从凝聚态到量子引力,任何涉及「从复杂性中提取简洁结构」的学科,都可能被这类AI能力深刻改变。
验证范式:AI猜想 + 人类验证 = 可信科学 论文建立了一个清晰的AI辅助科学发现验证模板:AI提出猜想 -> 人类通过解析方法验证 -> 多重交叉检查(递推关系+soft theorem)-> 发表预印本接受社区审查。UCSB教授Nathaniel Craig评价:「这篇论文感觉像是AI辅助科学未来的预览,物理学家与AI携手生成和验证新洞见。」这种范式的关键在于AI不替代人类判断,而是大幅加速从复杂数据到简洁洞见的过程。

💡 引发思考

GPT-5.2在理论物理中的突破,标志着AI从「工具」到「协作者」的质变。它不是在已知框架内做计算,而是在未知领域发现了新结果。这对AI行业有两层含义:第一,Extended Thinking/长链推理能力的商业价值远不止编程辅助——基础科学研究可能成为大模型最具变革性的应用场景;第二,「AI猜想+人类验证」的范式可能大幅加速基础科学的进展速度,那些依赖「从复杂性中提取简洁结构」的学科将率先被改变。

值得注意的是,这项工作的成功依赖于一个精心设计的协作架构:人类提供领域知识和验证能力,AI提供模式识别和长链推理能力。这不是「AI取代物理学家」,而是「AI让物理学家能探索以前不可能探索的领域」。对于关注AI Agent架构的工程师来说,这种「脚手架式多步推理」(scaffolded multi-step reasoning)的实现方式,比结果本身更值得关注。


📎 相关阅读

  • 论文原文:arxiv.org/abs/2602.12176
  • OpenAI官方博客:openai.com/index/new-result-theoretical-physics/
  • DeepSeek-R1推理能力论文:arxiv.org/abs/2501.12948
  • Falcon-H1R混合推理模型:arxiv.org/abs/2601.02346

逍遥云初 | 2026.05.07