位置编码总结

Genhiy...大约 5 分钟

提示

本部分内容部分参考自：知乎：十分钟读懂旋转编码（RoPE）open in new window

在做 self-attention 之前，会用词嵌入向量 $x$ 计算 $q, k,v$ 向量同时加入位置信息，函数公式表达如下：

\boldsymbol{q}_m=f_q(\boldsymbol{x}_m,m) \boldsymbol{k}_n=f_k(\boldsymbol{x}_n,n) \boldsymbol{v}_n=f_v(\boldsymbol{x}_n,n)

而基于 transformer 的位置编码方法都是着重于构造一个合适的 $f(q, k,v)$ 函数形式。

绝对位置编码

对于位置编码，常规的做法是在计算 query, key 和 value 向量之前，会计算一个位置编码向量 $p_i$ 加到词嵌入 $x_i$ 上，位置编码向量 $p_i$ 同样也是 $d$ 维向量，然后再乘以对应的变换矩阵 $W$ ：

f_{t:t\in\{q,k,v\}}(\boldsymbol{x}_i,i):=\boldsymbol{W}_{t:t\in\{q,k,v\}}(\boldsymbol{x}_i+\boldsymbol{p}_i)

而经典的位置编码向量 $p_i$ 的计算方式是使用 Sinusoidal 函数：

\begin{aligned}&\boldsymbol{p}_{i,2t}=\sin\left(k/10000^{2t/d}\right)\\&\boldsymbol{p}_{i,2t+1}=\cos\left(k/10000^{2t/d}\right)\end{aligned}

旋转位置编码RoPE

旋转位置编码（Rotary Position Embedding，RoPE）是一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。而目前很火的 LLaMA、GLM 模型也是采用该位置编码方式。和相对位置编码相比，RoPE 具有更好的外推性，目前是大模型相对位置编码中应用最广的方式之一。

备注：什么是大模型外推性？

外推性是指大模型在训练时和预测时的输入长度不一致，导致模型的泛化能力下降的问题。例如，如果一个模型在训练时只使用了512个 token 的文本，那么在预测时如果输入超过512个 token，模型可能无法正确处理。这就限制了大模型在处理长文本或多轮对话等任务时的效果。

为了能利用上 token 之间的相对位置信息，假定 query 向量和 key 向量之间的内积操作可以被一个函数 $g$ 表示，该函数 $g$ 的输入是词嵌入向量 $x_m$ ， $x_n$ 和它们之间的相对位置 $m-n$ ：

\langle\boldsymbol{f}_q(\boldsymbol{x}_m,m),f_k(\boldsymbol{x}_n,n)\rangle=g(\boldsymbol{x}_m,\boldsymbol{x}_n,m-n)

接下来的目标就是找到一个等价的位置编码方式，从而使得上述关系成立。

假定现在词嵌入向量的维度是两维，这样就可以利用上2维度平面上的向量的几何性质，然后论文中提出了一个满足上述关系的 $f$ 和 $g$ 的形式如下：

\begin{aligned}&f_{q}(\boldsymbol{x}_{m},m)=\left(\boldsymbol{W}_{q}\boldsymbol{x}_{m}\right)e^{im\theta}\\&f_{k}(\boldsymbol{x}_{n},n)=(\boldsymbol{W}_{k}\boldsymbol{x}_{n})e^{in\theta}\\&g(\boldsymbol{x}_{m},\boldsymbol{x}_{n},m-n)=\mathrm{Re}\left[(\boldsymbol{W}_{q}\boldsymbol{x}_{m})(\boldsymbol{W}_{k}\boldsymbol{x}_{n})^{*}e^{i(m-n)\theta}\right]\end{aligned}

\begin{aligned} f_{q}\left(\boldsymbol{x}_{m},m\right)& \left.=\left(\begin{array}{cc}\cos m\theta&-\sin m\theta)\\\sin m\theta&\cos m\theta\end{array}\right.\right)\left(\begin{array}{cc}W_q^{(1,1)}&W_q^{(1,2)}\\W_q^{(2,1)}&W_q^{(2,2)}\end{array}\right)\left(\begin{array}{c}x_m^{(1)}\\x_m^{(2)}\end{array}\right) \\ &\left.=\left(\begin{array}{cc}\cos m\theta&-\sin m\theta)\\\sin m\theta&\cos m\theta\end{array}\right.\right)\left(\begin{array}{c}q_m^{(1)}\\q_m^{(2)}\end{array}\right) \end{aligned}

\left.g(\boldsymbol{x}_m,\boldsymbol{x}_n,m-n)=\left(\begin{array}{cc}\boldsymbol{q}_m^{(1)}&\boldsymbol{q}_m^{(2)}\end{array}\right.\right)\left(\begin{array}{cc}\cos((m-n)\theta)&-\sin((m-n)\theta)\\\sin((m-n)\theta)&\cos((m-n)\theta)\end{array}\right)\left(\begin{array}{c}k_n^{(1)}\\k_n^{(2)}\end{array}\right)

扩展到多维

\begin{gathered}\boldsymbol{R}_{\Theta,m}^{d}=\underbrace{\begin{pmatrix}\cos m\theta_0&-\sin m\theta_0&0&0&\cdots&0&0\\\sin m\theta_0&\cos m\theta_0&0&0&\cdots&0&0\\0&0&\cos m\theta_1&-\sin m\theta_1&\cdots&0&0\\0&0&\sin m\theta_1&\cos m\theta_1&\cdots&0&0\\\vdots&\vdots&\vdots&\vdots&\ddots&\vdots&\vdots\\0&0&0&0&\cdots&\cos m\theta_{d/2-1}&-\sin m\theta_{d/2-1}\\0&0&0&0&\cdots&\sin m\theta_{d/2-1}&\cos m\theta_{d/2-1}\end{pmatrix}}_{W_m}\\\Theta=\left\{\theta_i=10000^{-2(i-1)/d},i\in[1,2,\ldots,d/2]\right\}\end{gathered}

由于这个矩阵具有很高的稀疏性，直接用矩阵乘法会很浪费算力，推荐通过下述方式来实现 RoPE：

\boldsymbol{R}_{\Theta,m}^d\boldsymbol{x}=\begin{pmatrix}x_0\\x_1\\x_2\\x_3\\\vdots\\x_{d-2}\\x_{d-1}\end{pmatrix}\otimes\begin{pmatrix}\cos m\theta_0\\\cos m\theta_0\\\cos m\theta_0\\\cos m\theta_1\\\cos m\theta_1\\\vdots\\\cos m\theta_{d/2-1}\\\cos m\theta_{d/2-1}\end{pmatrix}+\begin{pmatrix}-x_1\\x_0\\-x_3\\x_2\\\vdots\\-x_{d-1}\\x_{d-2}\end{pmatrix}\otimes\begin{pmatrix}\sin m\theta_0\\\sin m\theta_0\\\sin m\theta_1\\\sin m\theta_1\\\vdots\\\sin m\theta_{d/2-1}\\\sin m\theta_{d/2-1}\end{pmatrix}

其中 $\otimes$ 是逐位对应相乘，即计算框架中 $*$ 的运算。从这个实现也可以看到，RoPE可以视为是乘性位置编码的变体。

位置编码总结

绝对位置编码

旋转位置编码RoPE

扩展到多维

相对位置编码

训练式相对位置编码

函数式相对位置编码

相对与绝对融合