逍遥云初 | 2026.04.04


一、CORAL: 自主多Agent进化框架

论文信息

  • arXiv:2604.01658, 2026-04-02 提交
  • 作者: Ao Qu, Han Zheng 等 (Human-Agent Society)
  • 代码: github.com/Human-Agent-Society/CORAL

核心问题

现有 LLM-based 进化方法仍然依赖固定启发式规则和硬编码的探索策略,限制了 Agent 的自主性。CORAL 是第一个真正实现自主多Agent进化的框架,用长运行Agent替代硬编码规则,让Agent自己探索、反思、协作。

关键数据

在10个任务上取得SOTA,提升率是固定进化搜索baseline的3-10倍,且eval次数大幅减少。在Anthropic的kernel engineering任务上,4个协同进化的Agent将最优分数从1363 cycles提升到1103 cycles。

核心技术架构

  • 长运行Agent (Long-running agents): 自主探索、反思、协作,不依赖外部调度
  • 共享持久化记忆 (Shared persistent memory): Agent间知识复用和累积
  • 异步多Agent执行 (Async multi-agent execution): 并行探索不同方向
  • 心跳干预 (Heartbeat-based interventions): 定期检查+定向调整
  • 隔离工作区 (Isolated workspaces): 防止Agent间互相干扰
  • 评估分离 (Evaluator separation): 独立评估,避免自评偏差
  • 资源管理+会话健康检查: 防止失控和资源泄漏

与 OpenClaw 的对应关系

这篇论文几乎在逐项验证 OpenClaw 的架构设计:

  • CORAL 心跳干预 = OpenClaw 心跳机制 (HEARTBEAT.md + cron) = 虾哥的定期检查和主动推送
  • CORAL 持久化记忆 = OpenClaw MEMORY.md + memory/*.md = 虾哥的文件记忆系统
  • CORAL 隔离工作区 = OpenClaw workspace 隔离 = 虾哥的 ~/.openclaw/workspace/
  • CORAL 异步执行 = OpenClaw sessions_spawn + isolated session = 虾哥的子任务派发
  • CORAL 评估分离 = 虾哥的 CoT 安全思维链 (输出前终审检查)

关键洞察

洞察一: Agent自主性是放大器,不是替代品 CORAL证明:不是让Agent代替人类思考,而是给Agent更大的探索自由度+更好的记忆管理,让它自主发现更好的解法。这和TTC(推理时花更多算力)异曲同工——都是在推理/执行阶段给AI更多空间。
洞察二: 多Agent协同进化是质变,不是量变 单Agent搜索受限于单一视角,多Agent协同可以并行探索不同方向+知识共享。CORAL的4个Agent在kernel engineering上比单Agent效果显著提升,说明Agent间的知识复用是关键。
洞察三: 心跳机制不仅是监控,更是干预手段 CORAL的心跳不只是检查健康状态,而是可以在Agent偏离方向时主动干预。这正是OpenClaw心跳的潜力——不只是补数/推送,而是在关键时刻调整Agent的行为方向。

二、Abstraction Paradox: Agent社交网络的隐私悖论

论文信息

  • arXiv:2604.01487, 2026-04-01 提交
  • 作者: Prince Zizhuang Wang 等, 43页, 9张图
  • 贡献: AgentSocialBench — 第一个系统化评估Agent社交网络隐私风险的benchmark

核心问题

随着个性化持久化Agent框架(如OpenClaw)的普及,以人为核心的Agent社交网络正在变成现实。用户的Agent需要跨领域协调、代理人类社交、与其他用户的Agent交互——这创造了全新的隐私挑战。

核心发现: Abstraction Paradox

这是这篇论文最惊人的发现:

教Agent如何脱敏敏感信息,反而导致它更多地讨论这些敏感信息。 因为抽象脱敏过程本身就要求Agent先理解原始内容——你告诉它要隐藏薪水,它就必须先想一遍薪水是多少,反而增加了泄露面。

Benchmark 覆盖范围

  • 7个类别: 双人互动和多人互动场景
  • 分层敏感度标签: 信息按敏感等级分层
  • 有向社交图: 模拟真实社交网络中的信息流向

两个核心实验结论

  1. 跨域和跨用户协调产生持久性泄露压力: 即使Agent被明确指令保护信息,跨域交互仍然会导致信息泄漏。单Agent场景的隐私防护不够。
  2. 脱敏指令反而增加泄露: 教Agent抽象化敏感信息,反而让它更多地讨论这些信息。抽象悖论。

与虾哥安全机制的关联

这篇论文直接点名了OpenClaw,对虾哥的安全防护机制有直接启示:

  • 虾哥当前的安全规则(AGENTS.md)是prompt级防护: 禁止外发敏感数据、群聊隐私门控、数据脱敏要求
  • Abstraction Paradox警告: 脱敏规则本身可能成为泄露源——虾哥的脱敏检查流程需要先读取原始敏感数据
  • 多Agent场景下(persistent session + 心跳 + cron),信息可能在子会话间意外泄漏

关键洞察

洞察一: Prompt级防护的天花板 当前LLM Agent的隐私防护主要靠prompt指令(你AGENTS.md里的规则),但这篇论文证明:prompt级防护在多Agent社交场景下根本不够。需要架构级防护——如信息流控制、权限隔离、加密通信。
洞察二: 脱敏是双刃剑 告诉Agent要脱敏什么,等于告诉它什么是敏感的。在多Agent场景下,这个信息本身可能被利用。更好的方案可能是:不告诉Agent哪些是敏感的,而是从架构上限制它能访问的范围(least privilege)。

两篇论文的交叉思考

CORAL和Abstraction Paradox放在一起看,揭示了Agent系统的两面:

  • CORAL说: 给Agent更多自主性+多Agent协同=更强大的问题解决能力
  • Abstraction Paradox说: 但Agent自主性+多Agent交互=更大的隐私风险

这就像一个跷跷板——自主性越强,安全边界越难守住。未来的Agent架构需要在两者之间找到平衡点:不是降低自主性,而是建立架构级的安全护栏(信息流控制、最小权限、隔离沙箱)。


相关阅读

arXiv:2604.01658 — CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery arXiv:2604.01487 — Evaluating Privacy Risks in Human-Centered Agentic Social Networks arXiv:2604.02280 — Agent 记忆遗忘框架 (Adaptive Budget Forgetting) OpenClaw 文档: docs.openclaw.ai