论文简记: MSMDFusion

实验室段博亲历推荐，CVPR2023必读（什么玩意）—— Nuscenes SOTA

MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection

多尺度下激光雷达与摄像头使用多深度种子进行3D检测

和VirConv类似的是先产生虚拟点再在3维空间进行融合。不过这里虚拟点的生成有所改进。

总览全图的结构。

输入：激光点云，多视角的相机图像；

Voxelization：体素化，激光点云先传入到体素空间，后续再进行稀疏卷积（spconv）。

Multi-Depth Unprojection strategy (MDU)：多深度非投影策略。估计每一个seed相关联的深度，同时生成更加可靠的虚拟点。同样映射到体素空间。

GMA-Conv：门控模态感知卷积，对虚拟点和点云的体素采用后聚合的方式进行一个细粒度交互

输出：转化为BEV空间再进行Detection。

结构看起来不复杂。稀疏卷积是老生常谈了，这里重点关注MDU和GMA-Conv

这里介绍了MVP策略：

MVP首先将3D点投影到2D图像上，并保留属于2D前景实例掩码内的点。3D点作为深度参考，每个实例都将从其最近的参考点作为其估计深度从其最近的参考点检索一个真实深度。

当然这种策略有致命的问题如下图所示：

如（a）的红圈所示，左边的红圈两个深度并不匹配。同样右边的星星选取的是两个靠前的蓝点。这些都是深度误差。

而作者采用的K最近邻方法而言，检索附近的K个参考点，为每一个seed配备多个深度。任何再深度感知语义特征（其实是开始基于学习了）来进一步装饰虚拟点深度。

首先作者把图像虚拟点和激光雷达的点云映射到同一分辨率的体素空间。

然后分为3种：

蓝色：只有激光雷达的体素

黄色：只有相机虚拟点存在的体素

红色：激光雷达和相机虚拟点共同存在的体素

标上阴影的方块部分就是被门控选择的方块.

选择机制：考虑到基于LiDAR的检测器通常以较大的j精度优势超过基于相机的检测器，作者以LiDAR作为引导模态，从相机特征中选择有用的信息。具体来说，设计了一个基于LiDAR特征的门来控制和更新其相机对应物。选择的公式如下：

这两个f就是对应更新的相机和LIDAR的特征了。

然后为了提升效率，这里在还进行了FPS（最远点采样）的操作。