Transformer 基础篇
Transformer 的优势是什么
相比于 RNN:
- 并行化能力更强: RNN 每个步骤的输入依赖于前一个步骤的输出,只能顺序处理序列数据。相比之下,Transformer 可以同时处理序列中的所有元素,提高了训练过程的效率。
- 更好的处理长距离依赖:随着序列长度的增加,RNN 需要更多的步骤传递信息,可能导致信息丢失(梯度消失/爆炸)。Transformer 通过自注意力机制直接对序列中任意两个位置的元素进行相关性建模,获取长程信息。
- 灵活的上下文捕获: RNN 只能以单向或双向(Bi-RNNs)的形式捕获上下文。相比之下,Transformer 的自注意力机制可以为每个元素提供全局上下文信息。
...大约 18 分钟