Adapting LLaMA Decoder to Vision Transformer
2024年4月17日...大约 2 分钟
论文基本信息
标题:Adapting LLaMA Decoder to Vision Transformer
要点:
- LLaMA 解码器适配
- 视觉转换器 (ViT)
- 因果自关注
- 软掩码策略
目标: 本研究旨在将最初为大型语言模型设计的 LLaMA 纯解码器架构应用于计算机视觉领域。目标是探索将这一架构用于图像分类等任务的潜力,并实现与纯编码器架构相比具有竞争力的性能。
方法: 本研究引入了一系列修改,以使标准 ViT 架构与 LLaMA 架构保持一致。主要修改包括
- 使用后序列类别标记技术,将类别标记重新定位在图像标记之后,以解决注意力崩溃问题。
- 采用软掩码策略,逐步将因果掩码引入自我注意,促进优化。
- 利用因果自我注意提高计算效率,学习复杂表征。
指标: 定制模型 iLLaMA 在 ImageNet-1K 数据集上进行了评估,在使用 570 万个参数的情况下,最高准确率达到 75.1%。在ImageNet-21K上进行扩展和预训练后,该模型的准确率进一步提高到86.0%。广泛的实验证明了 iLLaMA 的可靠特性,包括校准、形状-纹理偏差、量化兼容性、ADE20K 分割和 CIFAR 转移学习,其性能可与纯编码器模型相媲美。
评价与记录
作者先用旋转位置编码RoPE替换了绝对位置编码LPE,效果有所提升(71.9-72.6),之后作者又把LPE加了回来,效果仍有提升(72.6-73.2)。作者在视觉任务上也使用了SwiGLU,其在视觉任务上也有效。使用RMSNorm替换了所有LN。