跳至主要內容
BEV

BEVFormer

PipeLine流程

其实和大多数的算法流程一样,BEVFormer的pipeline流程如下:

  • 使用Backbone和Neck(ResNet-101-DCN + FPN)提取环视图像的多尺度特征。
  • Encoder模块(包括Temporal Self-Attention模块和Spatial Cross-Attention模块),通过论文提出的方法将环视图像特征转换为BEV特征。
  • 类似于Deformable DETR的Decoder模块,完成3D目标检测的分类和定位任务。
  • 正负样本的定义采用了Transformer中常用的匈牙利匹配算法,使用Focal Loss + L1 Loss作为总损失,并最小化该损失。
  • 损失的计算使用Focal Loss分类损失和L1 Loss回归损失,并进行反向传播和更新网络模型参数。

Genhiy...大约 9 分钟自动驾驶BEV
位置编码总结

提示

本部分内容部分参考自:知乎:十分钟读懂旋转编码(RoPE)

在做 self-attention 之前,会用词嵌入向量xx计算q,k,vq, k,v向量同时加入位置信息,函数公式表达如下:


Genhiy...大约 5 分钟AITransformer位置编码