BEVFormer
PipeLine流程
其实和大多数的算法流程一样,BEVFormer的pipeline流程如下:
- 使用Backbone和Neck(ResNet-101-DCN + FPN)提取环视图像的多尺度特征。
- Encoder模块(包括Temporal Self-Attention模块和Spatial Cross-Attention模块),通过论文提出的方法将环视图像特征转换为BEV特征。
- 类似于Deformable DETR的Decoder模块,完成3D目标检测的分类和定位任务。
- 正负样本的定义采用了Transformer中常用的匈牙利匹配算法,使用Focal Loss + L1 Loss作为总损失,并最小化该损失。
- 损失的计算使用Focal Loss分类损失和L1 Loss回归损失,并进行反向传播和更新网络模型参数。
...大约 9 分钟