跳至主要內容

Adapting LLaMA Decoder to Vision Transformer

Genhiy2024年4月17日...大约 2 分钟论文笔记LLM

论文基本信息

标题:Adapting LLaMA Decoder to Vision Transformeropen in new window

要点:

目标: 本研究旨在将最初为大型语言模型设计的 LLaMA 纯解码器架构应用于计算机视觉领域。目标是探索将这一架构用于图像分类等任务的潜力,并实现与纯编码器架构相比具有竞争力的性能。

方法: 本研究引入了一系列修改,以使标准 ViT 架构与 LLaMA 架构保持一致。主要修改包括

指标: 定制模型 iLLaMA 在 ImageNet-1K 数据集上进行了评估,在使用 570 万个参数的情况下,最高准确率达到 75.1%。在ImageNet-21K上进行扩展和预训练后,该模型的准确率进一步提高到86.0%。广泛的实验证明了 iLLaMA 的可靠特性,包括校准、形状-纹理偏差、量化兼容性、ADE20K 分割和 CIFAR 转移学习,其性能可与纯编码器模型相媲美。

评价与记录

作者先用旋转位置编码RoPE替换了绝对位置编码LPE,效果有所提升(71.9-72.6),之后作者又把LPE加了回来,效果仍有提升(72.6-73.2)。作者在视觉任务上也使用了SwiGLU,其在视觉任务上也有效。使用RMSNorm替换了所有LN。