长程任务中,Agent的上下文正在以不可逆的速度膨胀——每一步推理、每一次工具调用、每一条观察结果,都在累积。当这些"中间态"堆积到临界点,模型开始出现成本飙升、幻觉频发、准确率断崖式下跌。
这是所有长程Agent面临的根本矛盾,却长期被行业忽视。
核心突破:五个原子操作,重构Agent工作记忆
Rui Ye团队提出了Context-ReAct范式,将上下文管理从被动存储升级为主动编排。五个原子操作:
Skip:跳过无关内容
Compress:摘要已解决的推理路径
Rollback:回溯到早期状态
Snippet:提取关键证据片段
Delete:丢弃无用分支
这篇论文的关键理论贡献在于:证明了Compress操作具有表达完备性,配合其他四个操作,Agent能以最小信息损失换取最大上下文精简。
数据说话:超越Tongyi DeepResearch近20个百分点
基于Qwen3-30B-A3B微调的LongSeeker,在BrowseComp上达到61.5%,BrowseComp-ZH达62.5%,分别超越Tongyi DeepResearch 18.3和15.8个百分点。
提升幅度接近20%,但模型参数并未增加——这说明问题的本质不在模型规模,而在记忆管理策略。
观点:Agent的下半场,争夺的是"注意力主权"
Context-ReAct的思路揭示了一个深层趋势:当模型能力趋于同质化,上下文的智能调度将成为新的核心竞争力。谁能更聪明地"忘记",谁就能走得更远。
附:隐私与具身AI的耦合危机
同天另一篇被ICML 2026接收的论文(arXiv:2605.05017)则将矛头指向具身AI(EAI)的隐私问题。当前EAI系统将"感知-规划-交互"各环节割裂优化,在高频部署场景下会造成系统性的隐私泄露风险——且泄露一旦发生,几乎不可逆。
作者提出的SPINE框架,将隐私视为贯穿整个生命周期的动态控制信号,而非某个模块的局部补丁。当AI从云端走向家庭空间,隐私不再是"加分项",而是生死线。






