跳至主要內容
Llama

Llama1

之前人们发现,大模型和小模型相比,一开始小模型Loss下降的快,但随着训练继续进行,小模型趋于饱和,而大模型则可以获得更低的Loss,也就是说,比较大的训练预算下,大模型是比较划算的。

但是Meta不这么认为,Meta认为训练只会训练一次,而推理则会进行无数次,推理低价应该比训练代价更重要,相同的计算预算下,增加训练数据比扩大模型参数更有效,Llama1总共使用了1.4T token,训练时的上下文长度为2048,使用了2048个A100 80G GPU,总训练用时21天。

Llama1模型采用的是Transformer Decoder架构,做了以下修改:


Genhiy...大约 11 分钟论文笔记正则化位置编码
KAN

这篇论文自4月30日发布,短短五一期间,一周时间,已经在paperwithcode上获得了7248个标星,可以说是非常火了,而且其声称可以用来替代MLP,而且作者单位麻省理工,所以阅读一下做一些笔记。

关键词:替代MLP、人工智能可解释性、参数效率

基本内容

为了解决什么问题?

MLPs在非线性回归、数据拟合、偏微分方程求解以及科学发现中存在一些限制,如固定激活函数的局限性、参数效率低、可解释性差等。

论文原话:如在transformer中:MLPs consume almost all non-embedding parameters and are typically less interpretable (relative to attention layers) without post-analysis tools.(mlp消耗了几乎所有的非嵌入参数,并且在没有分析后分析工具[5]的情况下,相对于注意层通常更难以解释)。


Genhiy...大约 11 分钟论文笔记激活函数
TransformerFAM

基础信息

1. 研究问题

这篇论文研究了Transformer模型在处理长序列输入时面临的二次注意力复杂度问题,这限制了它们对无限长输入的处理能力。

2. 解决模型及架构

  • 模型名称: Feedback Attention Memory (FAM)
  • 架构: TransformerFAM通过一个反馈循环设计,使网络能够关注自身的潜在表示,从而促进Transformer内部工作记忆的产生。
    • 模块: 使用了标准的Transformer层,并引入了Block Sliding Window Attention (BSWA)作为处理长上下文输入的两种主要方法之一。
    • 预训练模型: 是的,TransformerFAM能够无缝集成与预训练模型,实验中使用了1B, 8B, 和 24B的Flan-PaLM LLMs进行微调。
    • 预训练模型来源: Flan-PaLM是构建在预训练PaLM模型之上的,通过指令微调进行训练。

Genhiy...大约 2 分钟论文笔记Transformer
Adapting LLaMA Decoder to Vision Transformer

论文基本信息

标题:Adapting LLaMA Decoder to Vision Transformer

要点:

  • LLaMA 解码器适配
  • 视觉转换器 (ViT)
  • 因果自关注
  • 软掩码策略

目标: 本研究旨在将最初为大型语言模型设计的 LLaMA 纯解码器架构应用于计算机视觉领域。目标是探索将这一架构用于图像分类等任务的潜力,并实现与纯编码器架构相比具有竞争力的性能。


Genhiy...大约 2 分钟论文笔记LLM