跳至主要內容

Adapting LLaMA Decoder to Vision Transformer

Genhiy...大约 2 分钟论文笔记LLM

论文基本信息

标题:Adapting LLaMA Decoder to Vision Transformeropen in new window

要点:

  • LLaMA 解码器适配
  • 视觉转换器 (ViT)
  • 因果自关注
  • 软掩码策略

目标: 本研究旨在将最初为大型语言模型设计的 LLaMA 纯解码器架构应用于计算机视觉领域。目标是探索将这一架构用于图像分类等任务的潜力,并实现与纯编码器架构相比具有竞争力的性能。

方法: 本研究引入了一系列修改,以使标准 ViT 架构与 LLaMA 架构保持一致。主要修改包括

  • 使用后序列类别标记技术,将类别标记重新定位在图像标记之后,以解决注意力崩溃问题。
  • 采用软掩码策略,逐步将因果掩码引入自我注意,促进优化。
  • 利用因果自我注意提高计算效率,学习复杂表征。

指标: 定制模型 iLLaMA 在 ImageNet-1K 数据集上进行了评估,在使用 570 万个参数的情况下,最高准确率达到 75.1%。在ImageNet-21K上进行扩展和预训练后,该模型的准确率进一步提高到86.0%。广泛的实验证明了 iLLaMA 的可靠特性,包括校准、形状-纹理偏差、量化兼容性、ADE20K 分割和 CIFAR 转移学习,其性能可与纯编码器模型相媲美。

评价与记录

作者先用旋转位置编码RoPE替换了绝对位置编码LPE,效果有所提升(71.9-72.6),之后作者又把LPE加了回来,效果仍有提升(72.6-73.2)。作者在视觉任务上也使用了SwiGLU,其在视觉任务上也有效。使用RMSNorm替换了所有LN。