深度学习处理3D点云任务概览

参考论文：Deep Learning for 3D Point Clouds: A Survey

Introduction：3D数据通常有许多种表现形式：深度图、点云、网格、体积网格(volumetric grids)。点云表示的好处是：保持了最原始的3D空间中的几何信息，并且没有任何的离散化。因此在无人驾驶和机器人领域更偏向使用点云表示。

背景概要：3D点云的深度学习仍然面临着几个重大挑战，例如数据集规模小、3D点云的高维性和非结构化性质。在此基础上，该文重点分析了已用于处理3D点云的深度学习方法。

介绍了当前3D理解方向中的一些突出工作，包括3D形状分类、3D识别与跟踪、3D场景与目标分割；给出了该领域内比较科学的分类方法，展示了各种方法的性能对比；同时覆盖了各种方法的优缺点以及当前一些有潜力的研究方向。

数据集：

对于3D 形状分类，有两种类型的数据集：合成数据集和真实世界数据集。

合成数据集中的对象是完整的，没有任何遮挡和背景。相比之下，现实世界数据集中的对象在不同级别上被遮挡，并且某些对象受到背景噪声的污染。

对于3D 对象检测和跟踪，有两种类型的数据集：室内场景和室外城市场景。室内数据集中的点云要么从密集深度图转换而来，要么从 3D 网格中采样。室外城市数据集是为自动驾驶而设计的，其中物体在空间上分离良好，并且这些点云稀疏。

对于3D 点云分割，这些数据集由不同类型的传感器获取，包括移动激光扫描仪 (MLS)、空中激光扫描仪 (ALS)、静态地面激光扫描仪 (TLS)、RGB-D 相机和其他 3D 扫描仪。这些数据集可用于开发应对各种挑战的算法，包括类似的干扰因素、形状不完整性和类别不平衡。

3D形状分类

通常首先学习每个点的嵌入（Embedding），然后使用聚合方法从整个点云中提取全局形状嵌入。最终通过将全局嵌入输入到几个全连接层中来实现分类。根据神经网络输入的数据类型，现有的3D形状分类方法可以分为基于多视图的方法、基于体积的方法和基于点的方法。

趋势：基于多视图的方法将非结构化点云投影为 2D 图像，而基于体积的方法将点云转换为 3D 体积表示。然后，利用完善的 2D 或 3D 卷积网络来实现形状分类。相比之下，基于点的方法直接作用于原始点云，无需任何体素化或投影。基于点的方法不会引入显式信息丢失，并且变得越来越流行。

Multi-View Based Methods:首先将 3D 形状投影到多个视图中并提取视图特征，然后融合这些特征以进行准确的形状分类。

Volumetric-Based Methods:这些方法通常将点云体素化为 3D 网格，然后在体积表示上应用 3D 卷积神经网络 (CNN) 以进行形状分类。

Point-Based Methods:根据用于每个点的特征学习的网络架构，此类方法可以分为逐点MLP、基于卷积、基于图、基于分层数据结构的方法和其他典型方法。

PointNet

作为一项开创性工作，PointNet直接以点云（N,x,y,z）作为输入，并通过对称函数实现排列不变性。具体来说，PointNet 通过多个 MLP 层独立学习逐点特征，并通过最大池化层提取全局特征。

由于其简单性和较强的表示能力，许多网络都是基于PointNet开发的。 Mo-Net的架构与 PointNet类似，但它采用有限的矩集作为输入。点注意力变换器（PAT）通过每个点自身的绝对位置和相对于其邻居的相对位置来表示每个点，并通过 MLP 学习高维特征。然后，使用组洗牌注意力（GSA）来捕获点之间的关系，并开发排列不变、可微分且可训练的端到端 Gumbel 子集采样（GSS）层来学习分层特征。基于PointNet ++，PointWeb 利用局部邻域的上下文，使用自适应特征调整（AFA）来改进点特征。段等人。提出了一种结构关系网络（SRN），使用 MLP 来学习不同局部结构之间的结构关系特征。林等人。通过为 PointNet 学习的输入空间和函数空间构建查找表来加速推理过程。在中等机器上，ModelNet 和 ShapeNet 数据集的推理时间比 PointNet 加快了 1.5 毫秒，达到了 32 倍。 SRINet 首先投影点云以获得旋转不变表示，然后利用基于PointNet的主干提取全局特征和基于图的聚合来提取局部特征。在 PointASNL，Yan 等人。利用自适应采样（AS）模块自适应地调整最远点采样（FPS）算法采样的点的坐标和特征，并提出了局部-非局部（L-NL）模块来捕获局部和非局部特征。这些采样点的长程依赖性。

3D卷积

3D 连续卷积方法。这些方法在连续空间上定义卷积核，其中相邻点的权重与相对于中心点的空间分布相关。

可用给定子集的权重求和替代3D卷积。

采用现有算法表示卷积。

解决旋转等变问题的方法

实现计算加速

3D 离散卷积方法。这些方法在规则网格上定义卷积核，其中相邻点的权重与相对于中心点的偏移量相关。

一些工作

图网络

基于图的方法基于图的网络将点云中的每个点视为图的顶点，并根据每个点的邻居生成图的有向边。然后在空间或谱域中执行特征学习。典型的基于图的网络如图所示。

作为一项开创性的工作，西蒙诺夫斯基等人。将每个点视为图的一个顶点，并通过有向边将每个顶点与其所有邻居连接起来。然后，使用滤波器生成网络（例如 MLP）提出了边缘条件卷积（ECC）。采用最大池化来聚合邻域信息，并基于VoxelGrid实现图粗化。

在 DGCNN中，图是在特征空间中构建的，并在网络的每一层之后动态更新。作为 EdgeConv 的核心层，使用 MLP 作为每个边缘的特征学习函数，并将通道对称聚合应用于与每个点的邻居相关的边缘特征。

空间域图方法：

这些方法在空间域定义操作子（卷积&池化等）。特别地，卷积通常通过空间邻域的MLP实现，池化用于产生一个新的粗化图来聚合每个邻点信息。每个向量的信息由坐标、激光强度或颜色指定，而边缘特征由两个连接点的几何结构决定。

频域图方法：

在频域定义卷积 = 图信号 x 拉普拉斯矩阵特征向量

基于分层数据结构的方法

这些网络是基于不同的分层数据结构（例如八叉树和 kd 树）构建的。在这些方法中，点特征是沿着树从叶节点到根节点分层学习的。

暂不赘述。

3D shape classification最常用的数据集：ModelNet10/40数据集

3D识别与跟踪

典型的 3D 对象检测器将场景的点云作为输入并生成定向 3D 边界框在每个检测到的物体周围。

此外文章列出了几个里程碑式的方案图谱：

基于候选框的方法

这些方法首先提出几个可能包含对象的区域（也称为提案），然后提取区域特征以确定每个提案的类别标签。根据其对象提案生成方法，这些方法可以进一步分为三类：基于多视图、基于分割和基于平截头体的方法

多视图方法

基于多视图的方法。这些方法融合了来自不同视图图（例如，LiDAR 前视图、鸟瞰图（BEV）和图像）的提案特征，以获得 3D 旋转框，如上图 a 所示。这些方法的计算成本通常很高。

注意这方面的融合也涉及到多模态融合的部分。

陈等人。从BEV图（鸟瞰图）生成一组高精度3D候选框，并将它们投影到多个视图的特征图（例如，LiDAR前视图图像、RGB图像）。然后，他们结合了来自不同视图的这些区域特征来预测定向 3D 边界框，如图 a 所示。尽管该方法在仅 300 个提案的情况下，在 IoU 为 0.25 的情况下实现了 99.1% 的召回率，但其速度对于实际应用来说太慢了。随后，人们开发了几种方法从两个方面改进多视图3D目标检测方法。

首先，已经提出了几种方法来有效地融合不同模态的信息。为了生成对小物体具有高召回率的 3D 建议，Ku 等人。提出了一种基于多模态融合的区域提议网络。他们首先使用裁剪和调整大小操作从 BEV 和图像视图中提取相同大小的特征，然后使用逐元素均值池融合这些特征。梁等人。

基于分割的方法

这些方法首先利用现有的语义分割技术去除大部分背景点，然后在前景点上生成大量高质量的建议以节省计算量，如图b所示。与多视图方法相比，这些方法实现了更高的对象召回率，并且更适合对象高度遮挡和拥挤的复杂场景。

杨等人。使用二维分割网络来预测前景像素并将它们投影到点云中以去除大多数背景点。然后，他们在预测的前景点上生成提案，并设计了一个名为 PointsIoU 的新标准，以减少提案的冗余和模糊性。继之后，Shi等人。提出了PointRCNN框架。具体来说，他们直接分割 3D 点云以获得前景点，然后融合语义特征和局部空间特征以生成高质量的 3D 框。

Frustum-Based Method

这些方法首先利用现有的 2D 对象检测器生成对象的 2D 候选区域，然后为每个 2D 候选区域提取 3D 截头体提案，如图 c 所示。

尽管这些方法可以有效地提出 3D 对象的可能位置，但逐步的流程使其性能受到 2D 图像检测器的限制。 F-PointNets 是这个方向的开创性工作。它为每个 2D 区域生成一个视锥体提案，并应用 PointNet（或 PointNet++ ）来学习每个 3D 视锥体的点云特征，以进行非模态 3D 框估计。在后续工作中，赵等人。提出了一个Point-SENet模块来预测一组缩放因子，进一步用于自适应地突出有用的特征并抑制信息较少的特征。他们还将PointSIFT 模块集成到网络中以捕获点云的方向信息，这实现了对形状缩放的强大鲁棒性。与 F-PointNets 相比，该方法在室内和室外数据集上均取得了显着改进。

其他方法

值得关注的一个方法是结合运用了YOLO的思想的有PV-RCNN，该方法明显优于之前的方法，并且在 KITTI 3D 检测基准的 Car 类别中排名第一。

Single Shot Methods

这类方法使用单阶段的网络，直接预测类别概率和回归物体的3D bounding boxes。这类方法不需要产生区域候选框和后处理。结果是，这类方法有着很快的速度，很适合实时的应用。根据输入数据的形式，single shot方法可分为三类：基于鸟瞰图的方法，离散化方法和基于点云的方法。

基于鸟瞰图的方法

这类方法将BEV表示作为输入。将场景的点云离散化，使用FCN来预测位置和物体的航向角。该方法超越了大多数的single shot方法并且达到了28.6fps。之后，利用HP map提供的几何和语义先验信息，提高了的鲁棒性和检测性能。

离散化方法

这边主要关注的几个网络是PointPillars，SA-SSD。此外，PointPillars 在 3D 和 BEV KITTI [14] 基准测试中都可以以 62 fps 的速度运行，非常适合实际应用。

受到现有单次探测器逐渐缩小的特征图中点云的部分空间信息不可避免地丢失的观察的启发，He 等人。提出了一种SA-SSD检测器来利用细粒度结构信息来提高定位精度。具体来说，他们首先将点云转换为张量，并将其输入骨干网络以提取多级特征。此外，采用具有点级监督的辅助网络来引导特征学习点云的结构。实验结果表明，SA-SSD在KITTI BEV检测基准的Car类别中排名第一。

基于点云的方法

注意，综述中可见的最高的运算速度的点云方法是25fps，显著低于上部分的PointPillars。

这类方法将点云转换至一般的表示（例如2D map），接着使用CNN来预测各个类别和3D boxes。[Point-GNN]提出了使用FCN进行3D物体检测。他们将点云转换至2D point map，使用2D FCN来预测bounding boxes和物体的置信度。之后，[Joint 3D proposal generation and object detection from view aggregation]将点云离散化至4D的张量，其维度分别为：长度，宽度，高度和channel，接着将2D FCN的方法延伸至3D来进行3D的物体检测。与[Point-GNN]相比，基于FCN的3D方法达到了大于20%准确率的收益，但是由于3D卷积核数据的稀疏性，消耗了更多的计算资源。为了借体素稀疏性的问题，[Deep continuous fusion for multi-sensor 3D object detection]利用了feature-centric voting scheme，对每个非空的体素来产生一系列的votes，最后通过将votes相加的方式得到卷积的结果。它的计算复杂度与被占据的体素数量成正比。[Fast and furious: Real time end-to-end 3D detection, tracking and motion forecasting with a single convolutional net]通过堆叠多个稀疏3D CNN，构建了3D的backbone网络。这样的设计节约了内存并且加速了计算。这个3Dbackbone网络提取了丰富的物体检测的3D特征，并且并未引入计算量的负担。

3D 对象跟踪

给定第一帧中对象的位置，对象跟踪的任务是估计其在后续帧中的状态。由于 3D 对象跟踪可以利用点云中丰富的几何信息，因此有望克服基于图像的跟踪面临的几个缺点，包括遮挡、照明和尺度变化。

ps, 为节省时间，后续的论文注释序号不作修改，用于在原论文当中快速查找对应的工作。

受到 Siamese 网络 [169] 在基于图像的对象跟踪方面的成功的启发，Giancola 等人。 [170]提出了一种具有形状完成正则化的 3D Siamese 网络。具体来说，他们首先使用卡尔曼滤波器生成候选，并使用形状正则化将模型和候选编码为紧凑表示。然后使用余弦相似度来搜索下一帧中跟踪对象的位置。该方法可以用作对象跟踪的替代方法，并且显着优于大多数 2D 对象跟踪方法，包括 STAPLECA [171] 和 SiamFC [169]。

总结

这边直接给出KITTI的表。KITTI [14]基准是自动驾驶领域最有影响力的数据集之一，在学术界和工业界都得到了普遍使用。

以及作者的总结：

基于候选框的方法是这两类中最常研究的方法，并且在 KITTI 测试 3D 和 BEV 基准上都远远优于单次方法。
现有 3D 物体检测器有两个限制。首先，现有方法的远距离检测能力较差。其次，如何充分利用图像中的纹理信息仍然是一个悬而未决的问题。
多任务学习是 3D 对象检测的未来方向。例如，MMF [128] 学习跨模态表示，通过合并多个任务来实现最先进的检测性能。
3D对象跟踪和场景流估计是新兴的研究课题，自2019年以来逐渐引起越来越多的关注。

3D场景与目标分割

3D 点云分割需要了解全局几何结构和每个点的细粒度细节。根据分割粒度，3D点云分割方法可分为三类：语义分割（场景级）、实例分割（对象级）和零件分割（零件级）。

语义分割（场景级）

给定一个点云，语义分割的目标是，根据语义信息，将各个点分成一定的子集。与3D形状分类的分类类似，语义分割可分为两种方法：基于投影的方法和基于点的方法。

基于投影的网络

Intermediate regular representations可被分成以下几种：多视角表示[148], [149]、球状表示[150], [151], [152]、体素表示[153], [154], [155]、超多面体晶格表示[156], [157]以及混合表示[158], [159]。具体可见下图。

混合表示：混合方法为了进一步利用所有可用信息，人们提出了多种方法来从 3D 扫描中学习多模态特征。

实例分割（对象级）

与语义分割相比，实例分割更具有挑战性因为它需要更准确和更小的细粒度，具体而言，他不仅需要将有着不同语义的点分辨出来，还需要将有着相同语义的实例分出来。总体而言，目前的方法可分为两个方向：基于候选框的方法以及不需要候选框的方法。

基于候选框的方法

这类方法将实例分割问题分成两个子任务：3D物体检测和实例mask的预测。

总的来说，基于候选框的方法较为直观，并且实例分割的结果通常较好。然而该方法需要多阶段的训练并且需要对多余候选框进行裁剪。因此通常都需要更多的时间和计算资源。

总结

此处暂时先直接填上表格总结以便查询相关工作

显示了现有方法在公共基准上取得的结果，包括S3DIS [10]、Semantic3D [12]、ScanNet [39]和SemanticKITTI [15]。以下问题需要进一步研究：

由于常规的数据表示，基于投影的方法和基于离散化的方法都可以利用二维图像对应物的成熟网络架构。然而，基于投影的方法的主要局限性在于3D-2D投影引起的信息损失，而基于离散化的方法的主要瓶颈是分辨率增加导致的计算和内存成本的立方增加。为此，基于索引结构的稀疏卷积将是一个可行的解决方案，值得进一步探索。
基于点的网络是最常研究的方法。然而，点表示自然不具有明确的邻近信息，大多数现有的基于点的方法诉诸昂贵的邻近搜索机制（例如，KNN [79]或球查询[54]）。这本质上限制了这些方法的效率，最近提出的点体素联合表示[256]将是进一步研究的一个有趣的方向。
从不平衡数据中学习仍然是点云分割中的一个具有挑战性的问题。尽管几种方法[65]、[203]、[205]取得了显着的整体性能，但它们在少数类别上的性能仍然有限。例如，RandLANet [206] 在 Semantic3D 的缩减 8 子集上实现了 76.0% 的总体 IoU，但在硬景观类别上的 IoU 非常低，为 41.1%。

深度学习处理自动驾驶当中的激光雷达点云概览

参考论文：Deep Learning for LiDAR Point Clouds in Autonomous Driving: A Review

自动驾驶中图像和点云融合的深度学习

参考论文：Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review

该文章是第一篇专注于自动驾驶中基于深度学习的图像和点云融合方法的调查，包括深度补全、动态和静止物体检测、语义分割、跟踪和在线跨传感器校准。

A.图像深度学习

B. 点云深度学习

点云处理的常用方法

1）基于体积表示：体积表示将点云划分为固定分辨率的 3D 网格，其中每个网格/体素的特征都是手工制作或学习的。这种表示与标准 3D 卷积 [14]-[16] 兼容。 [17]中提出了几种技术来减少过度拟合、方向敏感性和捕获物体的内部结构。然而，体积表示在体素化过程中会失去空间分辨率和细粒度的 3D 几何形状，从而限制了其性能。此外，尝试增加其空间分辨率（更密集的体素）将导致计算和内存占用呈立方体增长，从而使其无法扩展。

2）基于索引/树表示：为了减轻高空间分辨率和计算成本之间的限制，利用树状数据结构的自适应分辨率分区方法，例如kd树[18]、[19]、八叉树[20]– [22]提出。通过将点云划分为一系列不平衡的树，可以根据其点密度来划分区域。这使得点密度较低的区域具有较低的分辨率，从而减少不必要的计算和内存占用。点特征与预先构建的树结构一起提取。

3）基于2D视图表示：2D视图/多视图是通过将点云投影到多个2D视图平面来生成的。这些渲染的多视图图像可以通过标准 2D 卷积进行处理，并且这些视图的特征通过视图池层进行聚合 [23]。因此，通过将点云转换为图像来解决排列不变问题，并通过聚合来自不同视图的特征来实现平移不变问题。齐等人。 [17]将体积表示与通过球体渲染生成的多视图相结合。不幸的是，2D 视图方法在视图渲染期间丢失了 3D 几何信息，并且难以进行每点标签预测 [19]。

4）基于图表示：点云可以表示为图，并且可以在空间或谱域的图上实现类似卷积的操作[24]-[26]。对于空间域中的图卷积，由 MLP 对空间相邻点执行操作。谱域图卷积通过拉普拉斯谱[27]-[29]将卷积扩展为图上的谱过滤。

5）基于点表示：基于点表示的方法消耗点云，而不将其转换为中间数据表示。这个方向的早期工作采用共享的多层感知器（MLP）来处理点云[30]、[31]，而最近的工作集中在为点定义专门的卷积操作[32]-[38]。

点云直接学习的开创性工作之一是 PointNet [30]、[31]，它采用独立的 T-Net 模块来对齐点云，并使用共享 MLP 来处理各个点以进行每点特征提取。 PointNet 的计算复杂度随着输入数量的增加而线性增加，使其与基于体积的方法相比更具可扩展性。为了实现排列不变性，通过共享 MLP 提取逐点特征，这些特征对于所有点都是相同的。这些特征通过对称操作（即最大池化）聚合，这也是排列不变的。

ps. 后续单独更新一个关于PointNet的博客。

由于这些文章都基本上是记载2021年之前的网络模型，故不再特地强调各个模型，直接介绍各个方法的优劣。

深度补全

深度完补全的目的是将稀疏的不规则深度上采样为密集的规则深度，这有利于下游感知模块。深度补全可以减少激光雷达扫描中点的严重不均匀分布。例如，对由充满点的手表示的远处对象进行上采样以匹配其较近的对应对象。为了实现这一点，通常采用高分辨率图像来指导 3D 深度上采样。

Mono Camera and LiDAR Fusion

图像引导深度补全背后的想法是密集的 RGB/颜色信息包含相关的 3D 几何形状。因此，图像可以用作深度上采样的参考。

信号级融合:

特征级融合:

多级融合：

Stereo Cameras and LiDAR Fusion

与 RGB 图像相比，立体相机的密集深度视差包含更丰富的地面实况 3D 几何形状。另一方面，LiDAR 深度稀疏但精度较高。这些互补的特性使基于立体激光雷达融合的深度完成模型能够产生更准确的密集深度。然而，值得注意的是，立体摄像头的范围有限，并且在高遮挡、无纹理的环境中表现不佳，这使得它们不太适合自动驾驶。

特征级融合:

动态物体检测

对象检测 (3D) 旨在定位、分类和估计 3D 空间中的定向边界框。本节致力于动态物体检测，包括常见的动态道路物体（汽车、行人、骑自行车的人等）。目标检测有两种主要方法：序列检测和一步检测。

基于序列的模型按时间顺序由提案阶段和 3D 边界框 (bbox) 回归阶段组成。proposal 阶段，proposal 可能包含感兴趣对象的区域。在 bbox 回归阶段，这些 proposal 根据从 3D 几何中提取的区域特征进行分类。然而，顺序融合的性能受到每个阶段的限制。另一方面，单步模型由一个阶段组成，其中 2D 和 3D 数据以并行方式处理。

A. 基于 2D proposal 的序列模型尝试在 proposal 阶段利用 2D 图像语义，这利用了现成的图像处理模型。

具体来说，这些方法利用图像对象检测器生成 2D 区域建议，并将其投影到 3D 空间作为检测种子。有两种投影方法可将 2D 提案转换为 3D。第一个是将图像平面中的边界框投影到点云，从而产生截锥体形状的 3D 搜索空间。第二种方法将点云投影到图像平面，这会产生具有逐点二维语义的点云。

1) 结果级融合：

2) 多级融合：

3) 特征级融合：

B.基于 3D proposal 的序列模型在基于 3D proposal 的序列模型中，3D proposal 直接从 2D 或 3D 数据生成。消除2D到3D proposal 转换, which极大地限制了3D 对象检测的搜索空间。 3D提案生成的常用方法包括多视图方法和点云体素化方法。

基于多视图的方法利用点云的鸟瞰图 (BEV) 表示来生成 3D 提案。 BEV 是首选视点，因为它可以避免遮挡并保留对象方向和 x、y 坐标的原始信息。这些方向和 x、y 坐标信息对于 3D 对象检测至关重要，同时使 BEV 和其他视图之间的坐标转换变得简单。

点云体素化将连续的不规则数据结构转换为离散的规则数据结构。这使得应用标准 3D 离散卷积并利用现有网络结构来处理点云成为可能。缺点是损失了一些空间分辨率，其中可能包含细粒度的 3D 结构信息。

C. 一步模型 单个阶段中执行提案生成和 bbox 回归。

通过将 proposal 和 bbox 回归阶段融合为一步，这些模型通常计算效率更高。这使得它们更适合移动计算平台上的实时应用程序。迈耶等人。 [74]将LaserNet [85]扩展到多任务和多模态网络，对融合图像和LiDAR数据执行3D对象检测和3D语义分割。两个 CNN 以并行方式处理深度图像（从点云生成）和前视图图像，并通过将点投影到图像平面来融合它们以关联相应的图像特征。该特征图被输入 LaserNet 以预测边界框的每点分布，并将它们组合起来以获得最终的 3D proposal。这种方法非常高效，同时实现了最先进的性能。

静止道路的目标检测

车道/道路检测现有调查[93]-[95]对传统的多模式道路检测方法进行了详细的回顾。这些方法[96]-[99]主要依靠视觉进行道路/车道检测，同时利用激光雷达进行路缘拟合和障碍物遮蔽。因此，本节重点介绍基于深度学习的道路提取融合策略的最新进展。

基于深度学习的道路检测方法可以分为基于 BEV 或基于前置摄像头视图。

基于深度学习的道路检测方法主要分为两类：基于BEV（鸟瞰视图）和基于前置摄像头视图。

基于BEV的方法：这些方法将LiDAR深度和图像投影到BEV，保留物体的原始坐标和方向。部分研究利用CNN从点云预测BEV高度，进行车道检测，但无法区分车道类型。其他研究则通过并行处理BEV LiDAR网格图和图像，或采用多阶段融合策略以提升性能，但计算成本较高。此外，信号级融合的方案可能导致纹理信息丢失。
基于前置摄像头视图的方法：这些方法将LiDAR深度投影到图像平面进行路面提取，存在精度损失。不同研究比较了信号级融合和特征级融合的效果，发现交叉融合最为有效。还有研究通过缩小输入数据尺寸来提高速度，后续用语义分割网络处理。

这些方法中的分类器多样，包括深度玻尔兹曼机（DBM）、支持向量机（SVM）和深度神经网络（DNN）。尽管这些方法利用了多模态数据和先验知识改善交通标志检测，但先验知识的地域性限制了其推广性。

原文翻译与参考：

语义分割

该段的方法与前文重复，暂时不再赘述。

总结

趋势

2D到3D：随着3D特征提取方法的进步，在3D空间中定位、跟踪和分割物体已成为研究的热点领域。
单任务到多任务：最近的一些工作[73]、[122]结合了多个互补任务，例如对象检测、语义分割和深度完成，以实现更好的整体性能并降低计算成本
信号级到多级融合：早期的工作经常利用信号级融合，其中 3D 几何图形被转换到图像平面以利用现成的图像处理模型，而最近的模型尝试在多级融合中融合图像和 LiDAR。级别（例如早期融合、晚期融合）和时间上下文编码。

自动驾驶中多模态三维目标检测研究

参考论文：Multi-Modal 3D Object Detection in Autonomous Driving: A Survey

BG：在现实世界中，通过单一类型的传感器数据执行 3D 物体检测还远远不够。首先，每种类型的传感器数据都有其固有的局限性和缺点。例如，基于摄像头的系统缺乏准确的深度信息，而仅使用激光雷达的系统则因输入数据分辨率较低而受到阻碍，尤其是在长距离情况下。如图2和表2所示。 1、平均而言，对于距离自我传感器较远的物体（KITTI中> 60m），通常有不到10个LiDAR点，但仍然具有超过400个图像像素。其次，感知系统必须能够抵御传感器失灵、失效或性能不佳，因此需要有不止一种类型的传感器。第三，不同传感器的数据自然互补。它们的结合可以更全面地描述环境，从而获得更好的检测结果。

因此，3D物体检测的最新趋势是结合来自不同传感器的数据流并开发多模态检测方法。

如图所示，自动驾驶汽车通常配备摄像头、LiDAR（即光探测和测距传感器）、雷达（无线电探测和测距传感器）、GPS（全球定位系统）和 IMU（惯性测量单元）[154, 193]。在多模态方法中，来自具有互补特性的多种类型传感器的数据被融合，以捕获具有重叠视角的场景，旨在最大限度地减少盲点。

而文章也指出了在做多模态点云过程中需要注意的一些挑战：

多传感器校准：不同类型的传感器在时间或空间上不同步。在时域中，由于每个传感器具有独立的采集周期，因此很难同时收集数据。在空间域中，传感器在部署时具有不同的视角。因此，多传感器标定是数据融合之前的第一步，目前尚未受到太多关注。
融合过程中的信息丢失 ：由于不同类型的传感器数据之间存在较大差距（如表1所示），因此很难在输入阶段或特征空间中精确对齐这些数据流。为了将传感器数据转换为可以正确对齐和融合的表示格式，一定量的信息丢失是不可避免的。
跨多种模式的一致数据增强 ：数据增强在 3D 对象检测中发挥着至关重要的作用，可以增加训练样本的大小，并改善模型过度拟合的问题[186]。基于 LiDAR 和基于相机的方法广泛采用全局旋转 [198] 和随机翻转 [141] 等增强策略，但由于担心导致跨模态不一致，因此在许多多模态方法中不存在。
目前，如何应对上述挑战并进行高效的数据融合仍然是一个悬而未决的问题。如果不小心完成，数据融合可能会导致不同的数据流相互成为噪音 [5, 10]，从而导致更差的结果。

方法论/分类

此外，文章还从三个角度来评论/分类目前现有的一些多模态融合方法：融合阶段（数据采集之后在神经网络当中做特征提取的前中后期），融合输入（即融合哪些数据，点云，体素网格，鸟瞰图），融合细度（点云级，体素级，感兴趣区域级（IoU））

首先搞清楚3D融合任务要处理的东西。

3D 对象检测任务

摄像头是自动驾驶汽车最常见的传感器。二维物体检测领域一系列成熟方法近年来得到了发展，可以在 3D 物体检测中重复使用 [46, 129]。因此，基于图像的 3D 对象检测方法可以以较低的成本实现令人满意的性能，通常优于人类专家 [105, 146]。

当然也有一些缺点，尤其是针对极端环境下面。

基于相机的 3D 对象检测的缺点

我们简要回顾一下基于 LiDAR 数据的 3D 物体检测的现有工作。

基于视图的检测

基于体素的检测

基于点的检测

点体素混合检测

与相机图像相比，LiDAR 点提供了强大的 3D 几何信息，这对于 3D 物体检测至关重要。此外，LiDAR传感器可以更好地适应强光等外部因素，目前，基于LiDAR的方法比基于相机的方法实现了更好的检测精度和更高的召回率。

通过其他传感器进行 3D 物体检测：除了摄像头和激光雷达之外，自动驾驶汽车还常常配备毫米波（简称mmWave）雷达传感器、红外摄像头等传感器。特别是毫米波雷达很早就被用在自动驾驶汽车上，因为它的鲁棒性更强。比相机和激光雷达更恶劣的天气条件[195]。更重要的是，雷达点提供了相应物体的速度信息，这对于避开动态物体至关重要[116]。

毫米波雷达传感器介绍

数据集

对多模态数据集的特化：（不过前面提到的数据集基本上也都有涉及一部分多模态）

KITTI

NuScenes

Waymo

经典操作

LiDAR-相机融合的典型融合输入

图像分支的典型融合输入。大多数激光雷达相机融合方法从图像分支获取以下三种融合输入之一，即特征图、分割掩模和伪激光雷达点云。

特征图：深度神经网络能够从原始图像中提取外观和几何特征图[75,77,188]，这是相机和其他传感器之间融合最常用的输入[19,78,85]。与原始图像（图13（a））相比，特征图的利用探索了更丰富的外观线索和更大的感受野，这使得模态之间的交互更加深入和彻底。例如，如图13（b）所示，我们观察到特征图的边缘和纹理比其他区域更清晰。我们建议读者参阅第 2 节。 4.2.2 更深入地回顾使用图像特征图作为输入的融合算法。在这里，我们列出了一些可用于获取特征图的流行主干网，这些特征图可以馈送到融合模块：例如，VGG-16 [147]、ResNet [54]、DenseNet [61]。

掩模：图像通过语义分割网络以获得逐像素分割掩模[45, 97]。图像掩模通常用于与其他传感器数据融合，作为图像处理分支的独立产品。与特征图相比，使用掩模作为相机数据融合输入具有以下优点。首先，图像掩模可以作为图像更紧凑的概括特征。其次，像素级图像掩模

伪LiDAR点云：相机数据也可以转换为伪点云作为融合输入[86]。正如[165]中指出的，伪点云表示将图像像素提升到3D空间，其信号比实际LiDAR点云密集得多。不利的一面是，它经常存在长尾问题，因为估计的深度在对象边界周围可能不准确[189]，如图 13 (d) 中黄色圆圈所示。根据[165]，伪LiDAR点是根据估计的深度图将图像像素反投影到伪3D点来获得的。在 3D 多模态检测的背景下，这种表示有助于多任务学习 [86]。使用伪点云作为融合输入，我们可以轻松促进图像和点云之间的密集特征图融合。

处理方法则另外谈: 体素信息，点云信息，和BEV，RV信息也是前面老生常谈的了，BEV和RV则常被用于2D的CNN当中。

而文章提到的是用于2D CNN的BEV和RV则算是这一行业的开端。不过会不可避免的造成3D信息的丢失。

骨干网络倒是并不复杂。下面则是融合了原始点云+图像蒙版。

要注意的是在 KITTI 和 nuSences 里面数据集对激光雷达点云的齐次变换投影来确保3D到2D这一操作（nuSences稍微不一样）。受到成功的 PointPainting 的启发，CenterPointV2 [185] 在 nuScenes 上几乎获得了最先进的结果，而 HorizonLiDAR3D [32] 在 Waymo 开放数据集挑战赛上名列前茅。

与此同时，随着旨在处理点云和图像的深度学习网络变得越来越多样化，单一模态采用多个输入进行融合也很常见。 MMF [86] 是这一类别的先驱。

它提出了一种端到端架构，可以执行包括 2D 和 3D 对象检测、深度补全等在内的多项任务。具体来说，融合模块从图像分支获取图像特征图以及伪 LiDAR 点云，并来自点云分支的 BEV。然后将这些输入联合融合以进行 3D 对象检测。最近，王等人。 [160]提出了一种多表示融合框架，以体素网格、点云的 RV 投影和图像特征图作为输入。他们进一步估计了这三个来源与注意模块对实现自适应融合的重要性。

融合的细粒度讨论

通常有三种选项：RoI 级、体素级和点级（最后一个为最细粒度）

RoI:

本质上，RoI 级融合仅融合选定对象区域的特征，而不是特征图上的密集位置。因此，RoI 级融合通常在相对较晚的阶段执行（即，在 3D 区域提议生成阶段之后）。这种融合粒度发生在对每个视图应用 RoI 池化以获得相同长度的特征向量时 [19, 78]，如图 21 所示。此外，它通常发生在对象提议级别，以便从通过几何关系的 2D RoIs [166, 173]。因此，RoI 级融合限制了神经网络在早期阶段捕获跨模态交互的能力。为了克服这个缺点，RoIlevel 融合通常与其他融合粒度相结合，以进一步细化提案 [86, 187]。

体素级

与 RoI 级相比，体素级融合利用了相对较早的融合阶段。体素化的点云数据通常被投影到图像平面上，因此我们可以将图像特征附加到每个体素，在这里，我们在体素特征和图像特征之间建立相对近似的对应关系。

具体来说，我们通过相机投影矩阵将每个体素特征中心投影到图像平面。获得图像域中的参考点后，将相应的图像特征附加到LiDAR体素特征分支中。体素级融合会导致一定程度的信息丢失，这是由于体素化中的空间信息丢失和非平滑相机特征图造成的。为了解决这个问题，可以通过插值投影组合相邻的图像特征像素来校正空间偏移，从而可以实现体素和图像特征之间更准确的对应。 [85, 187]。此外，我们可以探索交叉注意机制，使每个体素能够感知整个图像域并自适应地关注相应的 2D 特征，而不是采用一对一的匹配模式。与 RoI 级融合相比，这种体素级融合的粒度更细、更精确。此外，为了处理源自 LiDAR 稀疏性的空体素，体素级融合可以聚合密集的图像信息以补偿稀疏的 LiDAR 特征[148]。

点级

点的融合通常是早期融合，其中每个 3D 点都由图像特征或掩模聚合，以捕获密集的上下文。通过将相应的图像特征或掩模“提升”到 3D 点的坐标，点级融合为每个 3D 点提供了一个额外的通道。

具体来说，我们使用已知的变换矩阵[149]将3D点投影到2D图像像素，从而建立3D-2D映射。接下来，我们可以通过映射索引用相应的图像掩模来装饰点或体素特征。图 23 概述了这个过程。点级融合的突出优点是能够总结来自两种模态的有用信息，因为图像特征在很早的阶段就被连接起来。与上述两种融合粒度级别相比，我们可以简单地建立稠密图像和稀疏点云之间的对应关系，而不会出现模糊问题。

尽管实验结果表明点级融合有效提高了整体性能[156, 185]，但仍然存在局限性。首先，由于图像域中固有的遮挡问题，映射到遮挡图像区域的3D点可能会得到无效的图像信息[156]。其次，正如[148]中指出的，与体素级融合相比，点级融合在内存消耗方面效率较低。

总结：总之，RoI 级融合相当有限，因为这种融合缺乏深度的特征交互。后来的体素级和点融合方法允许深度特征交换，并且有自己的优点。然而，最近的一些研究表明，由于校准矩阵建立的点和像素之间的硬关联，此类方法很容易受到传感器未对准的影响。

最近，基于 BEV 的方法在 BEV 地图分割中的成功鼓励我们将其扩展到基于融合的 3D 对象检测任务 [134,180,197,93,94,63,62]。后续工作 [6, 96] 已经证明，将 LiDAR 功能与 BEV 中的摄像头功能融合可以有效防止图像质量下降和传感器未对准。

因此，一种用于 LiDAR-相机融合的新 BEV 级范式已经出现。这些方法不是通过3D2D硬关联来收集2D掩模或特征，而是直接将图像特征提升到3D世界，并且这些提升的特征可以处理到BEV级别，以便在检测管道的某个阶段与LiDAR BEV特征融合。例如，BEVfusion [96] 使用现成的深度估计器 LSS [119] 以可学习的方式将每个图像特征提升到 BEV 空间，然后这些提升的点由单独的 3D 编码器处理以生成 BEV 映射， LiDAR-相机融合发生在 BEV 级别， LiDAR-相机融合通过合并来自两种模式的两个 BEV 地图而发生在 BEV 级别。

自动驾驶的深度多模态目标检测和语义分割：数据集、方法和挑战

参考论文：Deep Multi-Modal Object Detection and Semantic Segmentation for Autonomous Driving: Datasets, Methods, and Challenges

NuScenes

论文简记：3D多模态点云目标检测总览

论文简记：3D多模态点云目标检测总览

深度学习处理3D点云任务概览

数据集：

3D形状分类

PointNet

3D卷积

图网络

3D识别与跟踪

基于候选框的方法

多视图方法

基于分割的方法

Frustum-Based Method

其他方法

Single Shot Methods

基于鸟瞰图的方法

离散化方法

基于点云的方法

3D 对象跟踪

总结

3D场景与目标分割

语义分割（场景级）

实例分割（对象级）

基于候选框的方法

总结

深度学习处理自动驾驶当中的激光雷达点云概览

自动驾驶中图像和点云融合的深度学习

点云处理的常用方法

深度补全

Mono Camera and LiDAR Fusion

Stereo Cameras and LiDAR Fusion

动态物体检测

静止道路的目标检测

语义分割

总结

自动驾驶中多模态三维目标检测研究

方法论/分类

数据集

经典操作

LiDAR-相机融合的典型融合输入

融合的细粒度讨论

自动驾驶的深度多模态目标检测和语义分割：数据集、方法和挑战