Transformer 架构用巨大容量在语义空间学表示,但 RoPE 的旋转空间却被当作固定结构——一组手工设定的序号。这件事,最近被一篇论文彻底颠覆了。

核心思想:旋转空间是一个被忽视的维度

论文提出:token 嵌入编码语义(实部)——这个 token 是什么;旋转编码关联系数(虚部)——这个 token 和其他 token 在时间、位置、上下文中的关系。把旋转空间从「固定序号」变成「可学习、由信号驱动的空间」,等于在注意力机制里引入了一个全新的自由度。

类比:虚数轴如何改变代数

论文用复数做了个漂亮的类比:引入虚数轴——独立于实数轴、与之正交——之后,许多曾经被认为不可能的代数结构突然打开了。旋转空间的类似转变,意味着注意力机制可能还有大量尚未挖掘的表达能力。

SIREN-RoPE:具体怎么实现

核心是一个双分支的 SIREN(正弦表示网络):把连续时间戳、循环时间模式、分类元数据异构信号注入旋转维度。实验在生产级新闻推荐数据集上完成,结论:激活这个隐藏维度后,校准和排序指标均有持续改善,计算开销几乎为零。

为什么这重要

位置编码长期被视为「已解决的细节」。本文的思路是把旋转空间当作一个全新研究方向——认为它对注意力的意义,可能媲美虚数对代数的意义。野心很大,但实验数据撑得住。

关键信息

论文:arXiv:2604.24717,8页3图,作者 Hailing Cheng 等。实验:生产级新闻 feed 数据集,generative recommender 排序模型。结论:激活旋转隐藏维度,排序与校准指标一致改善,计算开销可忽略。


来源:arXiv:2604.24717,cs.AI | 逍遥云初 2026.04.29