TransformerFAM

Genhiy...大约 2 分钟

基础信息

1. 研究问题

这篇论文研究了Transformer模型在处理长序列输入时面临的二次注意力复杂度问题，这限制了它们对无限长输入的处理能力。

2. 解决模型及架构

模型名称: Feedback Attention Memory (FAM)
架构: TransformerFAM通过一个反馈循环设计，使网络能够关注自身的潜在表示，从而促进Transformer内部工作记忆的产生。
- 模块: 使用了标准的Transformer层，并引入了Block Sliding Window Attention (BSWA)作为处理长上下文输入的两种主要方法之一。
- 预训练模型: 是的，TransformerFAM能够无缝集成与预训练模型，实验中使用了1B, 8B, 和 24B的Flan-PaLM LLMs进行微调。
- 预训练模型来源: Flan-PaLM是构建在预训练PaLM模型之上的，通过指令微调进行训练。

3. 解决结果与验证

结果: TransformerFAM在长上下文任务上显著提高了Transformer的性能。
数据集: 测试和验证了多个长上下文任务，包括但不限于Isabelle、NarrativeQA、PG-19、ScrollsQasper、ScrollsQuality和XLSum。
验证指标: 使用了准确率、ROUGE-L等指标进行评估。
对比方法: 与标准的Transformer模型、Transformer with Sliding Window Attention (SWA)、Block Sliding Window Attention (BSWA)等方法进行了对比。

4. 核心创新点

工作记忆: 引入了工作记忆的概念，通过反馈循环机制使Transformer能够维持长期依赖关系。
无需额外权重: TransformerFAM不需要额外的权重，可以重用预训练的模型权重。
计算复杂度: 在推理过程中，TransformerFAM具有线性的计算复杂度O(L)，其中L是处理的token长度。

5. 未解决问题

论文中提到了尽管TransformerFAM在长上下文任务上取得了进步，但深度学习中的记忆问题仍然是一个开放性挑战，需要进一步的研究来解决。此外，推理和记忆的转移至长期记忆也是未来研究的方向。

看了半天没看懂咋做的，然后看到了附录里的这张图，秒懂，这张图为啥要放附录里！……这篇论文关于将Transformer的推理降到O(n)的方式是类似于滑动窗口（Block Sliding Window Attention, BSWA）的操作，但做的改进是添加了一部分长期记忆（称之为Feedback Loop），其窗口内一部分是短期记忆，一部分是长期记忆，进行了一定的权衡。目前在将推理时间复杂度降低到一次时间复杂度的方法大抵如此，Mamba也是类似于通过了一种记忆模块，随着时间的推移逐步遗忘之前的元素。