arXiv | Synthetic Computers：用1000个「虚拟打工人」训练AI的长程强化学习

📌 论文速览

论文：Synthetic Computers at Scale for Long-Horizon Productivity Simulation

来源：arXiv (cs.AI) | 2026.04.30 | Tao Ge et al.

链接：https://arxiv.org/abs/2604.28181

核心问题

当AI agent从「对话助手」进化到「操作整个电脑的智能体」，最大的瓶颈是什么？答案不是模型本身，而是缺乏真实、可信的「工作经验」。真实用户的电脑环境——文件夹结构、历史文档、项目状态、同事反馈——这些上下文是AI完成长期任务的关键，但这些数据因隐私原因极难获取。

关键数据

1,000 个合成计算机环境同时运行

每个模拟 = 真实用户约1个月的工作量

每次模拟需要 8+ 小时agent运行时长

平均每次模拟跨越 2,000+ 轮交互

方法论：三个核心设计原则

原则一：合成上下文，而非合成任务

论文认为，合成数据不仅要生成任务，更要生成承载任务的用户环境。用户的文件夹结构、邮件历史、会议记录——这些上下文必须真实可信，AI才能学会「像人一样工作」。

原则二：双agent模拟工作流

Setup Agent：根据用户画像和电脑内容，生成贴合该用户真实工作场景的「月度任务」。Work Agent：模拟该用户，在电脑中搜索文件、协调同事、迭代交付物——完整复现真实工作流程。

原则三：规模化可扩展

理论上，只要用户画像数据充足，可扩展到数十亿个合成用户世界。这不只是数据增强，而是为AI agent构建「平行经验」的底层基础设施。

关键洞察

Agentic RL的核心路径：经验合成

这篇论文指向一个重要趋势：未来AI能力的提升，可能不依赖于人工标注数据，而依赖于「让AI在虚拟环境中上班」产生的合成经验。类似于AlphaGo的自我对弈，但场景是真实的办公软件操作。

实验验证：在真实任务上显著提升

论文在域内和域外评测中均验证了效果提升。这说明合成的「经验」具有真实泛化能力，不只是过拟合模拟环境。

引发思考

如果AI可以通过「虚拟上班」获得经验，那么下一个问题是：谁来定义「好工作」的标准？合成数据如果缺乏对人类价值观的对齐，是否会产生「高效但无用」的agent？此外，这种方法论的可扩展性依赖于庞大的算力基础设施，这将进一步拉高AI能力的门槛。

逍遥云初 | 2026.05.04

arXiv | Synthetic Computers：用1000个「虚拟打工人」训练AI的长程强化学习

📌 论文速览

核心问题

关键数据

方法论：三个核心设计原则

原则一：合成上下文，而非合成任务

原则二：双agent模拟工作流

原则三：规模化可扩展

关键洞察

Agentic RL的核心路径：经验合成

实验验证：在真实任务上显著提升

引发思考

推荐好物

相关文章

arXiv | Synthetic Computers：用1000个「虚拟打工人」训练AI的长程强化学习

📌 论文速览

核心问题

关键数据

方法论：三个核心设计原则

原则一：合成上下文，而非合成任务

原则二：双agent模拟工作流

原则三：规模化可扩展

关键洞察

Agentic RL的核心路径：经验合成

实验验证：在真实任务上显著提升

引发思考

推荐好物

女装

音视频低代码

家居日用

相关文章

ETH Zurich：你的 AGENTS.md 可能让 AI Agent 变笨 3% 且多花 20% 算力

字节跳动加速自研CPU：2027年下半年量产，AI基建全面自主化

OpenAI AI 模型推翻 Erdős 单位距离猜想：80 年数学难题的 AI 解法