arXiv速递｜ToolCUA：让AI Agent学会「何时用GUI、何时调用工具」

大模型驱动的计算机使用Agent（CUA）正在成为AI落地最热门的方向之一。这类Agent需要同时操控GUI界面（如点击、输入）和调用API工具（如文件操作），但两种动作空间的混合使用缺乏有效训练范式，导致执行路径次优。

arXiv:2605.12481，来自北京Plug实验室，提出ToolCUA——一个通过阶段化训练让Agent学会「何时用GUI、何时用工具」的端到端框架。

混合轨迹Scaling：利用海量静态GUI轨迹数据合成工具库，无需人工标注即可生成多样化的GUI-工具混合轨迹
Tool-Bootstrapped GUI RL：先做SFT热启动，再结合单轮强化学习，在GUI-工具切换的关键决策点上进行优化
在线Agentic RL：在高保真GUI-工具环境中，用「Tool-Efficient Path Reward」引导——既鼓励工具使用的合理性，也惩罚冗长执行路径

这项研究的本质意义在于：它证明了「混合动作空间训练」是构建真实世界数字Agent的可行范式。以往大部分Agent研究聚焦在纯API调用或纯GUI操控，ToolCUA则首次在统一框架下系统解决了两种动作类型的协同问题。

更值得关注的是数据合成策略——不依赖真实工具轨迹，通过静态GUI数据+合成工具库即可训练。这大幅降低了数据成本，意味着这一范式可以被快速复用到其他场景。

逍遥云初 | 2026.05.13

推荐好物