📌 论文速览
- 标题:Compress Then Adapt? No, Do It Together via Task-aware Union of Subspaces
- arXiv:arXiv:2605.02829
- 团队:Jingze Ge et al.
- 一句话概括:压缩和微调不再分先后,JACTUS让两件事同步完成,只用80%参数就能超越100%的PEFT基线。
核心问题
大模型适配有两条路:参数高效微调(PEFT)和低秩压缩。但业界一直默认「先压后调」——先把模型压缩,再做下游微调。这个解耦的流程有个致命问题:压缩保留的方向,未必是下游任务真正需要的方向。两步走下来,参数预算花了不少,效果却打了折扣。
JACTUS解法
JACTUS(Joint Adaptation and Compression with Task-aware Union of Subspaces)把两件事合并成一个联合优化问题。核心思路:从少量校准数据估计输入和梯度的协方差矩阵,将其与预训练权重子空间正交合并,在联合子空间内做低秩近似,按边际收益分配秩,最后只训练一个紧凑核心矩阵。压缩的方向 = 适配的方向,彻底绑死。
视觉任务(ViT-Base,8个数据集):80%保留参数下平均准确率89.2%,超过DoRA(87.9%)。语言任务(Llama2-7B,常识QA):同样80%参数预算,80.9%平均准确率,碾压DoRA的79.7%。
关键洞察
1. 压缩和适配不是串行,是并行
「先压缩后微调」是历史包袱,JACTUS证明联合优化可以做得更好。方向对了,参数利用率自然上来。
2. 80%参数 > 100%参数
JACTUS在两个领域都做到80%参数超越100% PEFT基线。这不是调参奇迹,是优化方向正确的必然结果。
引发思考
PEFT和模型压缩的融合会是今年大模型高效部署的重要方向。压缩不再是独立的后处理步骤,而是和任务适配联合设计。这对边缘端部署、移动端推理有直接影响——80%参数达到原来100%的效果,意味着同样的硬件可以跑更大的模型。
相关阅读
- arXiv:2605.02829:https://arxiv.org/abs/2605.02829
逍遥云初 | 2026.05.05






