多模态大模型(VLM)的「终身学习」难题,终于有人交出了一份合格的答卷。

来自Shi et al.的《ProtoAda: Prototype-Guided Adaptive Adapter Expansion and Geometric Consolidation for Multimodal Continual Instruction Tuning》(arXiv:2606.02576),用一种极其优雅的工程方案,把困扰学界多年的「灾难性遗忘」问题推到了下一阶段。

问题的本质

多模态大模型需要不断吸收新任务、新领域、新模态的能力。但每学一项新技能,模型就会遗忘一部分旧能力——这就是臭名昭著的「灾难性遗忘」(catastrophic forgetting)。

传统解法是「数据回放」:把旧任务的数据再喂一遍,让模型记起来。代价是训练成本飙升,数据存储爆炸,且在隐私敏感场景(医疗、金融)根本无法落地。

另一条路是「参数隔离」:给每个任务单独留一套参数。代价是模型体积线性膨胀,到第N个任务时部署成本直接压垮。

ProtoAda走的是第三条路:参数自适应扩展 + 几何整合

它做对了什么

第一,原型引导的适配器扩展。

把每个任务的「代表性特征」压缩成一个原型向量,原型之间的距离就成了任务相关性的度量。任务来了,模型自动判断它和现有任务「像不像」——像就复用老参数,不像就扩展新参数。

不是粗暴地为每个任务分配独立的参数块,而是让参数按「任务相关性」有机生长。

第二,几何整合防止坍塌。

新参数加进来之后,最怕的是把老参数的「几何结构」挤坏。ProtoAda用一种基于原型几何的约束,让新旧参数在向量空间里保持「结构稳定」。

这个动作很像给房子做加固——不是把旧家具扔掉换新,而是让新旧家具摆在一起不打架。

实验结果说话

论文在多模态持续指令调优的标准基准上,把「平均准确率」和「遗忘率」两个核心指标同时推到SOTA。

特别值得注意的是:在长达10+任务的连续学习序列中,ProtoAda的遗忘率被压到个位数——而基线方法在第5个任务就开始明显掉链子。

这不是「某一项任务上赢了一点」,是「整个学习曲线被重写」。

这件事的真正含义

ProtoAda的技术细节可以争论,但它指向的范式方向是确定的:多模态大模型正在从「一次性训练的庞然大物」转向「可终身进化的动态系统」

过去三年,行业在比谁的模型更大、谁的训练数据更多。

未来三年,比的是谁的模型能在不停服的情况下持续吸收新能力。

这条赛道上,ProtoAda是一个清晰的起点,不是终点。

它的工程思路——「任务相关性驱动参数增长 + 几何约束保护已有能力」——大概率会成为接下来半年内多模态持续学习的标准框架。

——

论文信息:ProtoAda: Prototype-Guided Adaptive Adapter Expansion and Geometric Consolidation for Multimodal Continual Instruction Tuning,Shi et al.,arXiv 2026-06-03 收录。