新闻内容
具身智能数据基础设施公司「智域基石」近日宣布完成数千万元天使轮融资,投资方包括灵初智能、穹彻智能、浙江人形、智平方四家机器人厂商。这家成立不久的公司将自己定位为“具身智能时代的数据编译器”——核心目标是把海量、杂乱的物理世界数据,精准编译成可以直接用于机器人训练的高质量输入。团队阵容上,CEO杨哲轩是前PingCAP核心成员,CTO徐良威来自腾讯和小鹏机器人,COO张计业曾任华为地市总经理及穹彻智能生态负责人。
这背后反映的是具身智能赛道正面临的一场隐蔽“供给危机”。行业不缺原始数据,但真正稀缺的是将混沌物理记录“编译”为高信噪比训练输入的基础设施能力。杨哲轩指出,当前存在一个结构性错位:懂算法的团队受制于工程瓶颈,难以建立工业级数据流水线;而传统AI数据标注厂商虽有规模化经验,却缺乏对机器人运动学、力触觉反馈的理解。“懂算法的不懂工程量产,懂量产的不懂机器人硬件”,这种错位正在制约具身大模型跨越物理鸿沟。
为解决这个问题,智域基石规划了三阶段商业路径:第一阶段(2026-2027)抢占数据入口,在手订单已近亿元;第二阶段(2027-2029)转向标准化资产订阅;第三阶段(2029+)开放API与开发者生态,构建通用数据交易市场。他们计划在全国建立超一万平方的真机数据采集工厂,机器人数量超400台、异构硬件形态超10种,预计2026年内积累超过200PB异构数据。
技术要点
- 数据质检效率:传统抽检导致高达95%的无效噪音混入训练集,而智域基石引入分布式计算与弹性伸缩架构,对视觉、深度、关节位姿、力触觉等多模态数据进行全量质检,从源头剔除“数据膨胀”
- 时空对齐精度:针对视觉30Hz与关节控制500Hz的采样频率落差,自研数据引擎在毫秒级别完成复杂维度的“高精度时空戳对齐”,将混沌物理记录锚定为大模型可解析的高价值时序资产
- 检索组配效率:通过类SQL的自研查询引擎,实现对海量物理数据中场景、技能、动作基元的语义化调用,单次交付规模可达数百TB,交付效率与准确度大幅提升
关键洞察
1. 具身智能的核心矛盾已从“缺数据”转向“缺编译能力”]
过去两年,行业普遍认为具身智能的瓶颈是数据量不足,于是资本蜂拥投向本体、模型、零部件。但现实情况是,原始物理数据的采集已经不是什么难题,难的是这些数据根本无法被模型有效利用——大量多模态采集记录沦为消耗算力的“数据废料”。智域基石的出现标志着行业认知的一次升级:真正稀缺的不是物理世界的原始记录,而是将它们编译成模型能“读懂”的训练语料的能力。这个判断如果成立,意味着未来具身智能的竞争高地将从“数据采集”转向“数据编译”,这是一场认知框架的根本性切换。
2. 人力密集型数据工厂无法构成真正的商业壁垒]
智域基石CTO杨哲轩的一个核心观点值得反复咀嚼:人力成本具有天然刚性,且随规模扩张管理效率必然触及上限。面对PB级数据吞吐需求,“堆人头”的模式本质上是不可扩展的。真正的高毛利基础设施必须依赖技术架构重构。他们的目标是,未来核心数据加工环节的人力需求降低至少50%。这不是一个简单的效率优化问题,而是商业模式的根本重构——当一家数据公司的核心竞争力来自“硬核技术手段”而非“人海战术”时,它的护城河性质就完全不同了。
3. 2026年是具身智能跨越商业鸿沟的关键检验节点]
杨哲轩判断,随着数据方向创业公司涌现,具身智能数据量预计将增长数十倍以上,达到千万小时级别。但这也意味着检验期的到来:如果数据总量瓶颈被大幅缓解后,大模型在真实场景中的任务成功率与泛化能力依然无法取得实质性突破,整个行业将面临严峻的信心重估。这是一个冷酷但必要的预言。今明两年,数据问题的缓解会像一面镜子,照出算法本身的真实成色。能跨越这道鸿沟的企业将引领下一阶段,跨不过去的则会被资本无情抛弃。
思考
智域基石的定位让我想到一个类比:如果把大模型比作发电厂,那么数据就是煤炭——重要性不言而喻,但过去行业都在关注“挖煤”,却忽略了“洗煤”这个环节的价值。智域基石正在做的事,本质上是在具身智能领域建立一套“洗煤”工业标准。这个标准如果能真正落地,影响的不只是一家公司,而是整个具身智能产业的成本结构和效率基线。
但我更关注的是另一个问题:当数据编译能力成为核心竞争力之后,具身智能的竞争维度会发生什么变化?可以预见的是,数据源头的争夺会进一步加剧——谁控制了高质量物理数据的采集入口,谁就拥有编译的“原材料”优势。同时,编译工艺本身也会成为各家建立差异化壁垒的关键。这场竞争不再是单点突破,而是数据全产业链的体系化战争。能在这场战争中存活下来的,要么是掌握了核心编译工艺的平台型企业,要么是在特定垂直场景建立了高壁垒的数据资产公司。
相关阅读
- 36氪:https://36kr.com/p/3746889894461960?f=rss
逍遥云初 | 2026.4.1





