第八届北京智源大会今天在中关村开幕。
「悟道」到「悟界」,一字之差,却是中国大模型界一次集体站位的宣言。
智源研究院院长王仲远在主旨报告里抛出的核心判断:「Next Token Prediction正在走向Next State Prediction——人工智能正在从数字世界走向物理世界。」
世界模型不是新概念,但今年是分水岭
世界模型的理论源头可以追溯到1943年Kenneth Craik的「心智模型」。
过去半年它突然异常火热,根源在于:大语言模型解决不了物理世界的问题。
Claude的发布让「数字世界模型」能力大增,但机器人、自动驾驶、具身智能这些领域,LLM几乎全部失效。原因很简单:LLM在文本上预训练,没学过重力、摩擦、流体力学、因果链条。
智源2024年就提出「大语言模型→多模态大模型→世界模型」的演进路线。今天发布的通用世界基座模型悟界·Physis-v0.1,是这条路线上的第一个硬核产出。
Physis是什么
不是对话机器人,不是多模态理解工具,是一个通用的物理世界基座模型。
王仲远举了一个例子:把一杯咖啡放在桌子边缘,搭载世界模型能力的机器人不仅能看到杯子在那里,还能判断「这个位置有点危险,杯子很可能会掉落」,并据此调整自己拿取杯子的力度和方向。
这是当前大语言模型无论如何做不到的事——因为它从没在「物理空间的时间、空间、物理规律、物理常识」上被训练过。
同场发布的还有Emu3登上Nature
悟界·Emu3多模态大模型成果已在《自然》(Nature)正式刊发。29岁的负责人带领的团队,用一种极其简单统一的架构,把文本、图像、视频的理解和生成放进同一个模型、同一套「预测下一个token」的原则里。
这是对当前主流「拼装方案」(语言模型 + 扩散模型)的一次直接挑战。
这届大会的真正信号
14位图灵奖得主到场、首次设置「AI-Native教育」论坛、全球AI人才齐聚中关村——智源大会的规格已经站在了中国AI学术界的顶端。
但规格之外,更值得关注的是智源押注的方向:
- 不再做语言模型的follow-up。王仲远直言,研究院作为新型研发机构,要做高校和企业不愿意做的方向。
- 世界模型成为下一个十年赌注。智源是最早提出并开展世界模型研究的国内机构。
- 「三体互动」成为新叙事框架。人工智能、物理世界、生命科学的交互,是这一代AI的下一站。
从悟道1.0到悟界·Physis,智源用三年时间完成了一次范式转身。
中国AI学术界需要这样的赌注——不是更大、更便宜的下一个LLM,而是打开下一扇门的基础设施。
悟界·Physis-v0.1是起点,不是答案。
但方向对了,路就不会太远。
——
参考:第八届北京智源大会,2026-06-12至13,中关村国际创新中心。






