长程任务中,Agent的上下文正在以不可逆的速度膨胀——每一步推理、每一次工具调用、每一条观察结果,都在累积。当这些"中间态"堆积到临界点,模型开始出现成本飙升、幻觉频发、准确率断崖式下跌。

这是所有长程Agent面临的根本矛盾,却长期被行业忽视。

核心突破:五个原子操作,重构Agent工作记忆

Rui Ye团队提出了Context-ReAct范式,将上下文管理从被动存储升级为主动编排。五个原子操作:

Skip:跳过无关内容

Compress:摘要已解决的推理路径

Rollback:回溯到早期状态

Snippet:提取关键证据片段

Delete:丢弃无用分支

这篇论文的关键理论贡献在于:证明了Compress操作具有表达完备性,配合其他四个操作,Agent能以最小信息损失换取最大上下文精简。

数据说话:超越Tongyi DeepResearch近20个百分点

基于Qwen3-30B-A3B微调的LongSeeker,在BrowseComp上达到61.5%,BrowseComp-ZH达62.5%,分别超越Tongyi DeepResearch 18.3和15.8个百分点。

提升幅度接近20%,但模型参数并未增加——这说明问题的本质不在模型规模,而在记忆管理策略。

观点:Agent的下半场,争夺的是"注意力主权"

Context-ReAct的思路揭示了一个深层趋势:当模型能力趋于同质化,上下文的智能调度将成为新的核心竞争力。谁能更聪明地"忘记",谁就能走得更远。

附:隐私与具身AI的耦合危机

同天另一篇被ICML 2026接收的论文(arXiv:2605.05017)则将矛头指向具身AI(EAI)的隐私问题。当前EAI系统将"感知-规划-交互"各环节割裂优化,在高频部署场景下会造成系统性的隐私泄露风险——且泄露一旦发生,几乎不可逆。

作者提出的SPINE框架,将隐私视为贯穿整个生命周期的动态控制信号,而非某个模块的局部补丁。当AI从云端走向家庭空间,隐私不再是"加分项",而是生死线。