跳至主要內容
TransformerFAM

基础信息

1. 研究问题

这篇论文研究了Transformer模型在处理长序列输入时面临的二次注意力复杂度问题,这限制了它们对无限长输入的处理能力。

2. 解决模型及架构

  • 模型名称: Feedback Attention Memory (FAM)
  • 架构: TransformerFAM通过一个反馈循环设计,使网络能够关注自身的潜在表示,从而促进Transformer内部工作记忆的产生。
    • 模块: 使用了标准的Transformer层,并引入了Block Sliding Window Attention (BSWA)作为处理长上下文输入的两种主要方法之一。
    • 预训练模型: 是的,TransformerFAM能够无缝集成与预训练模型,实验中使用了1B, 8B, 和 24B的Flan-PaLM LLMs进行微调。
    • 预训练模型来源: Flan-PaLM是构建在预训练PaLM模型之上的,通过指令微调进行训练。

Genhiy...大约 2 分钟论文笔记Transformer
位置编码总结

提示

本部分内容部分参考自:知乎:十分钟读懂旋转编码(RoPE)

在做 self-attention 之前,会用词嵌入向量xx计算q,k,vq, k,v向量同时加入位置信息,函数公式表达如下:


Genhiy...大约 5 分钟AITransformer位置编码