Adapting LLaMA Decoder to Vision Transformer

Genhiy...大约 2 分钟

论文基本信息

标题：Adapting LLaMA Decoder to Vision Transformeropen in new window

要点：

LLaMA 解码器适配
视觉转换器 (ViT)
因果自关注
软掩码策略

目标： 本研究旨在将最初为大型语言模型设计的 LLaMA 纯解码器架构应用于计算机视觉领域。目标是探索将这一架构用于图像分类等任务的潜力，并实现与纯编码器架构相比具有竞争力的性能。

方法： 本研究引入了一系列修改，以使标准 ViT 架构与 LLaMA 架构保持一致。主要修改包括

使用后序列类别标记技术，将类别标记重新定位在图像标记之后，以解决注意力崩溃问题。
采用软掩码策略，逐步将因果掩码引入自我注意，促进优化。
利用因果自我注意提高计算效率，学习复杂表征。

指标： 定制模型 iLLaMA 在 ImageNet-1K 数据集上进行了评估，在使用 570 万个参数的情况下，最高准确率达到 75.1%。在ImageNet-21K上进行扩展和预训练后，该模型的准确率进一步提高到86.0%。广泛的实验证明了 iLLaMA 的可靠特性，包括校准、形状-纹理偏差、量化兼容性、ADE20K 分割和 CIFAR 转移学习，其性能可与纯编码器模型相媲美。

评价与记录

作者先用旋转位置编码RoPE替换了绝对位置编码LPE，效果有所提升（71.9-72.6），之后作者又把LPE加了回来，效果仍有提升（72.6-73.2）。作者在视觉任务上也使用了SwiGLU，其在视觉任务上也有效。使用RMSNorm替换了所有LN。