Transformer升级之路：将β进制位置进行到底作者： PaperWeekly 来源： PaperWeekly ©PaperWeekly 原创 · 作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神经网络在文章《Transformer 升级之路：RoPE 是一种 β 进制编码》中，我们给出了 RoPE 的进制诠释，并基于进制转化的思路推导了能够在不微调的情况下就

Transformer升级之路：将β进制位置进行到底

By AiBard123
August 1, 2023 - 2 min read

作者： PaperWeekly 来源： PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 科学空间

研究方向 | NLP、神经网络

在文章《Transformer 升级之路：RoPE 是一种 β 进制编码》中，我们给出了 RoPE 的进制诠释，并基于进制转化的思路推导了能够在不微调的情况下就可以扩展 Context 长度的 NTK-aware RoPE。不得不说，通过类比进制的方式来理解位置编码，确实是一个非常美妙且富有启发性的视角，以至于笔者每次深入思考和回味之时，似乎总能从中得到新的领悟和收获。

本文将重新回顾 RoPE 的进制诠释，并尝试将已有的 NTK-aware RoPE 一般化，以期望找到一种更优的策略来不微调地扩展 LLM 的 Context 长度。

进制类比

我们知道，RoPE 的参数化沿用了 Sinusoidal 位置编码的形式。而不知道是巧合还是故意为之，整数 n 的 Sinusoidal 位置编码，与它的进制编码，有很多相通之处。具体来说，整数 n 的进制表示的（从右往左数）第 m 位数字是：

而它的 Sinusoidal 位置编码是

可以看到，两者都有相同的，并且和同为周期函数，所以两者的唯一差距，只是无关紧要的取整了。所以说，将 RoPE/Sinusoidal 位置编码类比为它进制表示，是非常直观且合理的结果。

修正NTK

沿着《Transformer 升级之路：RoPE 是一种 β 进制编码》的思路，直接外推会将外推压力集中在“高位（m 较大）”上，而位置内插则会将“低位（m 较小）”的表示变得更加稠密，不利于区分相对距离。而 NTK-aware RoPE 其实就是进制转换，它将外推压力平摊到每一位上，并且保持相邻间隔不变，这些特性对明显更倾向于依赖相对位置的 LLM 来说是非常友好和关键的，所以它可以不微调也能实现一定的效果。

仔细看式（2），事实上是一个整体，所以它实际只有位，也就是说它相当于 n 的位进制编码。如果我们要扩展到 k 倍 Context，将进制转换为进制，那么至少应该有

于是新的 RoPE 变为

这就是上一篇文章我们提出的 NTK-RoPE。

然而，后来笔者仔细思考后，发现这其实还不够合理。回到式（1），如果要计算进制的第 m 位数字，那么应该是

也就是说，除了要换成之外，求的周期也要扩大倍，这等价于求之前，要多除以一个：

在后面的实验中，我们把上一篇文章提出的式（4）称为“NTK-RoPE-old”，而式（6）称为“NTK-RoPE-fixed”。

混合进制

现在，不妨让我们更加“天马行空”一些——既然我们可以用进制来表示位置，那么为何不干脆使用更一般化的“混合进制”呢？这里的混合进制，指的是每一位数字所使用的进位基数不尽相同，这对于我们来说并不鲜见，比如 60 秒是 1 分钟、60 分是 1 小时，但 24 小时是 1 天、7 天是 1 周，这里的 60、60、24、7 就是不同进制基数，换句话说秒、分、时、天、周就是一个混合进制。

假设从右往左数，第 1 位使用进制、第 2 位使用进制、第 3 位使用进制、…，那么求 n 的第 m 位数字，结果是

为什么会考虑到混合进制呢？这是因为某天笔者发现了一个有趣的事实：RoPE 本质上是一种相对位置编码，相对位置是 Toeplitz 矩阵的一个特例，它长这个样（由于本文主要关心语言模型，所以右上角部分就没写出来了）。

从上式我们可以发现，相对位置编码的位置分布是不均衡的！0 的出现次数最多、1 次之、2 再次之，以此类推，即 n 越大出现次数越少。这就意味着，作为一种进制编码的 RoPE，它的“高位”很可能是训练不充分的，换言之高位的泛化能力很可能不如低位。刚才我们说了，NTK-RoPE 将外推压力平摊到每一位上，如果这里的猜测合理的话，那么“平摊”就不是最优的，应该是低位要分摊更多，高位分摊更少，这就导致了混合进制。

分摊优化

具体来说，我们通过将进制转换为混合进制的方式来扩展到 k 倍 Context，这里。此时式（7）变为

式（6）也相应地变成

根据“扩展 k 倍”和“低位要分摊更多”的原则，约束条件是

我们讨论如下形式的解

当时，它满足的条件，当时，实际上就是前面的“NTK-RoPE-fixed”。当然，有兴趣的读者也可以试探别的形式的解，这里自由度本身就很大。给出了约束

所以只有一个自由度可以调。经过简单的二分法搜索，笔者发现在自己的实验中，能取得平均来说比较好的扩展效果（不同的模型可能会有不同的最优解，请自行调试），这个版本被称为“NTK-RoPE-mixed”。

实验结果

在《Transformer 升级之路：RoPE 是一种 β 进制编码》的实验基础上，笔者补做了“NTK-RoPE-fixed”和“NTK-RoPE-mixed”的实验，对比如下：

可以看到，混合进制推导出来的“NTK-RoPE-mixed”所带来的提升还是很明显的，毕竟不用微调，算得上免费午餐了。此外，可以看到版的外扩性能确实更好，但是技巧需要在预训练阶段就加入，之前就有读者问过像 LLAMA 这种在预训练阶段并没有加入技巧的模型，可否享受到的“红利”呢？经过笔者测试，发现它可以通过加入如下 scale 因子来提升效果：