[AI论文解读] 让AI在真实电脑上打工一个月


论文信息

arXiv:2604.28181 | Ge et al. | 2026-04-30


核心突破

  • 为AI构建1000个合成电脑,每个都有独特的文件夹层级和真实的文档/表格/演示文件
  • 设定需要一个月人类工作才能完成的复杂交付物目标,让AI在完整文件系统里持续工作
  • 另一个AI扮演用户:导航文件系统、协调模拟协作者、生成专业交付物

深度解读

传统AI benchmark考的是一次性答题,无法测量AI在真实长周期任务中的表现。这篇论文指向了更大的趋势——AI评估正在从考试走向实习。

真实工作场景里大量的上下文存储在文件系统里,传统训练数据几乎不会覆盖这类内容。这篇论文通过合成数据解决了数据荒问题。

工程层面已验证——1000个合成电脑的pipeline已跑通。未来真正的竞争维度不是谁答得好,而是谁能在真实环境里持续产出。


论文链接: https://arxiv.org/abs/2604.28181