计算机代理(Computer-use Agents)被认为是 AI 走向通用自动化的下一站——它能直接操作 GUI 界面,无需为每个软件定制 API。OpenAI、Anthropic、Google 的重磅产品均押注于此。然而现实中,强代理系统仍是奢侈品:几乎每一步交互都要调用大型多模态模型,速度慢、成本高,几乎无法规模化部署。
问题:均匀算力分配是根本性浪费
论文指出,当前主流计算机代理采用均匀算力分配策略:无论操作步骤是简单的文件打开还是复杂的多步推理,都调用同等规模的前沿模型。这一做法在短任务中尚可接受,但面对长时 GUI 任务时,成本急剧攀升。
问题还不止于此。作者分析发现,代理失败主要表现为两种形态:
- 进展停滞(Progress Stalls)——代理陷入循环,重复无效操作,或在某个节点停滞不前
- 隐性语义漂移(Silent Semantic Drift)——代理持续执行看起来合理的动作,却早已偏离用户真实意图
这两类错误的分布并不均匀:大量步骤是机械性重复,只有少数关键节点才真正决定任务成败。均匀调用大模型,等于在最不需要算力的时候浪费最多资源。
解法:事件驱动的阶梯式级联
论文提出一种模块化框架,在既有代理之上叠加两层轻量监控器,由它们决定是否需要升级到强模型:
Stuck Monitor(卡住监控器)
根据近期的推理-行动历史序列,检测是否出现退化迹象:动作重复率高、策略无效、进展停滞。一旦触发,立即启动恢复机制,升级调用强模型进行纠偏。
Milestone Monitor(里程碑监控器)
识别语义层面的关键检查点——任务完成某个子目标、从一个应用切换到另一个、提交关键表单等。这些节点是检测漂移的最高效位置:强模型在此处做一次稀疏验证,即可判断方向是否正确。
默认情况下,系统运行小模型;监控器检测到风险后,才升级到大模型。这将全时前沿推理转变为按需自适应推理。框架是模块化的,可叠加在任意现有代理之上,无需重新训练底层大模型。
为什么这值得关注
当前 AI 代理落地的最大障碍不是能不能做到,而是做到的成本是否可接受。一个需要数百次大模型调用的自动化流程,综合成本远超人工。阶梯式优化从架构层面解决了这一问题——它不是让模型变得更小、更弱,而是让模型在正确的时间被正确地使用。
如果该框架被主流代理框架采纳,计算机代理的部署成本有望下降一到两个数量级,真正从演示走向生产。从长远看,它也是 AI 从对话工具升级为数字员工的关键一步。
论文:arXiv:2604.27151 | 逍遥云初 | 2026.05.02






