论文笔记分类

Llama1

之前人们发现，大模型和小模型相比，一开始小模型Loss下降的快，但随着训练继续进行，小模型趋于饱和，而大模型则可以获得更低的Loss，也就是说，比较大的训练预算下，大模型是比较划算的。

但是Meta不这么认为，Meta认为训练只会训练一次，而推理则会进行无数次，推理低价应该比训练代价更重要，相同的计算预算下，增加训练数据比扩大模型参数更有效，Llama1总共使用了1.4T token，训练时的上下文长度为2048，使用了2048个A100 80G GPU，总训练用时21天。

Llama1模型采用的是Transformer Decoder架构，做了以下修改：

Genhiy...大约 11 分钟

KAN

这篇论文自4月30日发布，短短五一期间，一周时间，已经在paperwithcode上获得了7248个标星，可以说是非常火了，而且其声称可以用来替代MLP，而且作者单位麻省理工，所以阅读一下做一些笔记。

关键词：替代MLP、人工智能可解释性、参数效率

基本内容

为了解决什么问题？

MLPs在非线性回归、数据拟合、偏微分方程求解以及科学发现中存在一些限制，如固定激活函数的局限性、参数效率低、可解释性差等。

论文原话：如在transformer中：MLPs consume almost all non-embedding parameters and are typically less interpretable (relative to attention layers) without post-analysis tools.（mlp消耗了几乎所有的非嵌入参数，并且在没有分析后分析工具[5]的情况下，相对于注意层通常更难以解释）。

Genhiy...大约 11 分钟

TransformerFAM

基础信息

1. 研究问题

这篇论文研究了Transformer模型在处理长序列输入时面临的二次注意力复杂度问题，这限制了它们对无限长输入的处理能力。

2. 解决模型及架构

模型名称: Feedback Attention Memory (FAM)
架构: TransformerFAM通过一个反馈循环设计，使网络能够关注自身的潜在表示，从而促进Transformer内部工作记忆的产生。
- 模块: 使用了标准的Transformer层，并引入了Block Sliding Window Attention (BSWA)作为处理长上下文输入的两种主要方法之一。
- 预训练模型: 是的，TransformerFAM能够无缝集成与预训练模型，实验中使用了1B, 8B, 和 24B的Flan-PaLM LLMs进行微调。
- 预训练模型来源: Flan-PaLM是构建在预训练PaLM模型之上的，通过指令微调进行训练。

Genhiy...大约 2 分钟

Mamba

前人遇到的问题：RNN需要按照时间顺序地完成每个步骤无法并行训练，ViT受到注意力计算二次复杂性的限制。

提示

本部分内容部分参考自：CSDN：一文通透想颠覆Transformer的Mamba：从SSM、HiPPO、S4到Mamba

Genhiy...大约 17 分钟

Adapting LLaMA Decoder to Vision Transformer

论文基本信息

标题：Adapting LLaMA Decoder to Vision Transformer

要点：

LLaMA 解码器适配
视觉转换器 (ViT)
因果自关注
软掩码策略

目标： 本研究旨在将最初为大型语言模型设计的 LLaMA 纯解码器架构应用于计算机视觉领域。目标是探索将这一架构用于图像分类等任务的潜力，并实现与纯编码器架构相比具有竞争力的性能。

Genhiy...大约 2 分钟