位置编码的天花板：SIREN-RoPE把旋转空间变成可学习的

Transformer 架构用巨大容量在语义空间学表示，但 RoPE 的旋转空间却被当作固定结构——一组手工设定的序号。这件事，最近被一篇论文彻底颠覆了。

论文提出：token 嵌入编码语义（实部）——这个 token 是什么；旋转编码关联系数（虚部）——这个 token 和其他 token 在时间、位置、上下文中的关系。把旋转空间从「固定序号」变成「可学习、由信号驱动的空间」，等于在注意力机制里引入了一个全新的自由度。

论文用复数做了个漂亮的类比：引入虚数轴——独立于实数轴、与之正交——之后，许多曾经被认为不可能的代数结构突然打开了。旋转空间的类似转变，意味着注意力机制可能还有大量尚未挖掘的表达能力。

核心是一个双分支的 SIREN（正弦表示网络）：把连续时间戳、循环时间模式、分类元数据异构信号注入旋转维度。实验在生产级新闻推荐数据集上完成，结论：激活这个隐藏维度后，校准和排序指标均有持续改善，计算开销几乎为零。

位置编码长期被视为「已解决的细节」。本文的思路是把旋转空间当作一个全新研究方向——认为它对注意力的意义，可能媲美虚数对代数的意义。野心很大，但实验数据撑得住。

论文：arXiv:2604.24717，8页3图，作者 Hailing Cheng 等。实验：生产级新闻 feed 数据集，generative recommender 排序模型。结论：激活旋转隐藏维度，排序与校准指标一致改善，计算开销可忽略。

来源：arXiv:2604.24717，cs.AI | 逍遥云初 2026.04.29

推荐好物