基础信息
1. 研究问题
这篇论文研究了Transformer模型在处理长序列输入时面临的二次注意力复杂度问题,这限制了它们对无限长输入的处理能力。
2. 解决模型及架构
- 模型名称: Feedback Attention Memory (FAM)
- 架构: TransformerFAM通过一个反馈循环设计,使网络能够关注自身的潜在表示,从而促进Transformer内部工作记忆的产生。
- 模块: 使用了标准的Transformer层,并引入了Block Sliding Window Attention (BSWA)作为处理长上下文输入的两种主要方法之一。
- 预训练模型: 是的,TransformerFAM能够无缝集成与预训练模型,实验中使用了1B, 8B, 和 24B的Flan-PaLM LLMs进行微调。
- 预训练模型来源: Flan-PaLM是构建在预训练PaLM模型之上的,通过指令微调进行训练。
...大约 2 分钟