论文简记:方向调研-复杂天气/点云增强/RGBD融合/强光对抗/低对比度/运动检测

这篇文章上次修改于 8 个月前,可能部分内容已经不适用,如有疑问可询问作者。

论文简记:方向调研-复杂天气/点云增强/RGBD融合/强光对抗/低对比度/运动检测

文章记述

本章节简单就各个方向记录不同论文对相关子方向的总结

点云质量增强

随着三维探测技术的发展,点云逐渐成为最常用的三维视觉/场景表征数据类型,广泛认知自动驾驶、增强现实及虚拟现实等领域。同样地,采集的原始点云通常是不完整、稀疏、杂乱的,为点云的处理和分析带来了巨大的挑战。在此背景下,点云质量增强技术旨在针对原始点云进行处理节点结构完整、密集且接近无噪声的点云,具有重要意义。

相比其他几个方向,该方向关注于从低质量的点云到高质量的点云。即:

输入:原始点云

输出:高质量点云(结构完整,密集,去噪)

深度学习点云质量增强方法综述

关键词: 点云补全;点云上采样;点云去噪;质量增强;深度学习

其中根据任务的不同分为三个方面,具体的分类如论文的下图所示:

基于点云的一些深度神经网络

  • 点云先验知识:

点云一般包含点的三维坐标和对应的属性信息 (颜色、法向量和反射强度等),其主要具备两种特点:

  1. 置换不变性(即无序性),点集中的各个点没有固定的顺序 (说白了就是可以交换任意两个点)。

  2. 刚体旋转平移不变性, 即对点云进行旋转和平移操作后,不会改变点云的形状。

Point-Net:

引入T-Net (transformation network)对输入点云及中间特征根进行变换 ,并利用一系列多层感知器及最大池化层提取点云的特征。

尽管 PointNet 的设计考虑了点云的置换不变性 和旋转平移不变性,但网络暴力地将所有的点通过最大池化生成为一个全局特征,因此并不能较好地学习到点与点之间的局部关联性。在此基础上有诞生其改进版本Point-Net++:借鉴CNN的思想采用多层的局部感受野更好的学习特征。两者网络的结构示意图如下:

EdgeConv:

在前者的基础上,DGCNN(dynamic graph convolutional neural network) (Wang 等,2019a)提出了边缘卷积模块(edge convo⁃ lution,EdgeConv)捕获空间局部几何信息,并融合点 间局部关系与全局信息的边特征。关注到点与点之间的几何相关性

FoldingNet:

FoldingNet 折叠解码器(Yang 等,2018)是一种通用的点云重构方法,基本结构如下图:

其主要包含两次折叠操作:1)将二维网格折叠到3D空间中;2)在 3D 空间进一步折叠细化。

点云补全算法

由于环境、硬件设备以及物体间的遮挡等原因, 传感器采集到的数据点往往是不完整的。点云补全旨在对于一个残缺或局部的输入点云,生成一个具备完整形状的点集。

基于体素

随着 3D 卷积的发展,基于体素的补全算法不断 地更新迭代,取得了较好的补全效果。但其仍然存在着很大的局限性:

1)点云的体素化表示存在较大的空间冗余,存储成本高;

2)体素或 3D 网格的大小 难以确定 ;

3)体素化会带来量化效应 ,造成信息损失 。

PS: 量化效应(Quantization Effect)是指在对连续的几何或信号数据进行离散化处理时,由于将其表示为有限的离散值或固定大小的单元(如体素),导致信息的精度降低或失真的一种现象。

基于点

在PointNet的基础上进行开发:

基于点的方法可以划分为两类: 即为是否基于编码器—解码器的方法

此外,基于编码器—解码器结构的方法可按照是否采用 GAN 结构进行二次分类,即基于编码器—解码器 普通结构的方法与基于编码器—解码器—GAN 结构的方法。

这类方法直接作用于原始点云,对其空间结构特征给予充分考虑,并解决了基于体素的方法所带来的存储成本过高和量化误差的问题,实现 了更少参数的高分辨率点云补全。

点云上采样算法

点云上采样的任务是给定一个输入点云 ,在不破坏其几何结构信息的前提下,对其进行上采样,从而生成一个较密集的点云。

依托于深度神经网络的大量研究基础,基于卷积神经网络的方法仍是点云上采样领域 的主流结构。

相较于传统的卷积神经网络,GAN 能够通过生成器和鉴别器之间的对抗,更好地学习点云的真实分布特点。然而,由于生成器和鉴别器之间难以平 衡,成功地训练 GAN 模型有一定的挑战性

图卷积结构通过利用图拓扑结构学习点与点之间的联系,帮助点云上采样网络聚合点邻域信息,从而提升对结构细节的学习能力。然而, 点云网络中的图卷积结构往往需要借助 K-近邻算法建立邻域关系,往往引入较高的计算复杂度。此 外,不同点云类型也将影响网络中邻域范围的划定, 即 K-近邻中 K 值的选取,将为实验带来一定的复杂度提升。

总体来说,上采样部分很像我前面做的超分辨工作,主体也是CNN+Transformer,GAN,图网络三家争霸。

点云去噪算法

受扫描设备以及环境因素影响,采集到的点云 数据通常受到噪声的干扰。点云去噪的任务是:给定一个存在噪声的点云,在不破坏其原本几何结构 的前提下,尽可能去除其中的噪声点。

现阶段,基于编码器—解码器结构的点云去噪 算法大多聚焦于点云高维特征提取效率的提升,以 实现更精准的点云噪声点去除。与此同时,部分研究者也对图卷积、循环神经网络等其他各类结构进行了充分的探索与尝试

总结

该论文也算是23年的论文了。不知图像处理里面最近的热点从Diffusion到Mamba,SAM这些网络也没有在上面有用武之地。


DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets

论文地址

代码地址

本文章主要处理的问题是: 稀疏点云:

几乎所有学术论文、3D点云刷榜方法都基于流行稀疏卷积(Spconv)大势的现在。由于Spconv的不易移植性和未完全适配Tensorrt加速的情况下,该文章提出一种易于实现和上车部署的transformer骨干网。

直接从方法入手:

作者寻求扩展Transformer的适用性,使其能够像在2D视觉中一样,成为室外3D感知的强大骨干。其骨干结构既高效又易于部署,无需任何定制的CUDA操作。为实现这一目标,我们提出了两个主要模块,一个是动态稀疏窗口注意力,以支持具有不同稀疏性的局部窗口的高效并行计算;另一个是一种新颖的可学习3D池化操作,用于对特征图进行降采样并更好地编码几何信息。

从上图可以开始看出其第一个DSVT部分采用首先,它通过体素特征编码(VFE)模块将输入点云转换为稀疏体素,每个体素都会被视为一个“token”。考虑到Transformer的充分感受野和室外物体的微小尺度。采用单步距网络设计Embracing Single Stride 3D Object Detector with Sparse Transformer,而不是使用分层表示。该设计不会减少X/Y轴上特征图的尺度,并且已经证明在室外3D物体检测中表现更好。

基于窗口的Transformer架构在2D物体检测中取得了巨大成功。然而,由于点云在3D空间中稀疏分布,许多体素为空,没有有效点。因此,每个窗口中非空体素的数量可能会有很大差异,这使得直接应用标准Transformer变得非常困难。作者提出了动态稀疏窗口注意力,一种基于窗口的注意力策略,用于有效地并行处理稀疏3D体素。值得注意的是,它全部由深度学习工具中经过优化的原生操作实现,没有任何自定义的CUDA操作,因此非常适合在现代GPU上部署。

在这个基于窗口的Transformer当中还包括旋转集合注意力用于窗口内特征传播,混合窗口分区用于窗口间特征传播。动态集合划分等等。主要还是注意力机制对不同单位上的应用。


3D Object Detection for Autonomous Driving: A Comprehensive Survey

论文地址

回顾了自动驾驶 3D 物体检测的进展。主要包括从不同角度对 3D 物体检测方法进行了全面的回顾,包括不同感官输入的检测(基于 LiDAR、基于相机和多模态检测)、时间序列检测、标签高效检测以及应用驾驶系统中的 3D 物体检测。

当然,我主要关注其中的预测部分和多模态(相机与激光雷达)融合的部分。

其主要是3类:基于LiDAR—相机、雷达和地图融合的方法。

Multi-modal detection with LiDAR-camera fusion

背景:相机和 LiDAR 是用于 3D 物体检测的两种互补传感器类型。相机提供颜色信息,可以从中提取丰富的语义特征,而 LiDAR 传感器专门从事 3D 定位并提供有关 3D 结构的丰富信息。为了融合来自摄像头和 LiDAR 的信息以实现准确的 3D 物体检测,人们做出了许多努力。由于基于 LiDAR 的检测方法的性能比基于相机的方法好得多,因此最先进的方法主要基于基于 LiDAR 的 3D 物体检测器,并尝试将图像信息合并到 LiDAR 检测管道的不同阶段。鉴于基于激光雷达和基于相机的检测系统的复杂性,将两种模式结合在一起不可避免地会带来额外的计算开销和推理时间延迟。因此,如何有效地融合多模态信息仍然是一个开放的挑战。

早期融合框架

通常以顺序方式构建:首先采用二维检测或分割网络从图像中提取知识,然后将图像知识传递到点云,最后将增强的点云馈送到激光雷达基于 3D 物体检测器。根据融合类型,早期融合方法可分为两类:区域级知识融合和点级知识融合。

区域级融合方法旨在利用图像中的知识来缩小 3D 点云中的对象候选区域范围。具体来说,图像首先通过 2D 对象检测器以生成 2D 边界框,然后将 2D 框挤压成 3D 视锥体。

点级融合方法首先是让图像通过分割网络以获得逐像素语义标签,然后通过点到像素投影将语义标签附加到3D点。最后,带有语义标签的点被输入到基于 LiDAR 的 3D 物体检测器中。

虽然这些方法都是两者的推理过程基本上相互独立,兼容性较好,然而,早期融合方法通常以顺序方式执行多模态融合和 3D 对象检测,这带来了额外的推理延迟。鉴于融合步骤通常需要复杂的二维目标检测或语义分割网络,多模态融合带来的时间成本通常是不可忽略的。因此,如何在早期有效地进行多模态融合成为一个严峻的挑战。

中期融合框架

基于中间融合的方法尝试在基于 LiDAR 的 3D 物体检测器的中间阶段融合图像和 LiDAR 特征,例如在骨干网络中,在提案生成阶段,或在 ROI 细化阶段。这些方法也可以根据融合阶段进行分类。

骨干网络融合为了在骨干网络中逐步融合图像和激光雷达特征,人们做出了许多努力。在这些方法中,首先通过LiDAR到相机的变换建立点到像素的对应关系,然后利用点到像素的对应关系,可以通过不同的融合算子将来自LiDAR主干的特征与来自图像主干的特征融合。多模态融合可以在基于网格的检测主干的中间层中进行,具有新颖的融合算子,包括——连续卷积层,混合体素特征编码 和 Transformer, 结构示意图如上图所示。

提案生成和 RoI head 的融合。有一类工作在提案生成和 RoI 细化阶段进行多模态特征融合。在这些方法中,首先从 LiDAR 探测器生成 3D 对象提案,然后将 3D 提案投影到多个视图(即图像视图和鸟瞰图)中,以分别从图像和 LiDAR 主干中裁剪特征。最后,将裁剪后的图像和 LiDAR 特征融合在 RoI 头中,以预测每个 3D 对象的参数。 MV3D 和 AVOD 是利用多视图聚合进行多模态检测的开创性工作。其他论文使用 Transformer 解码器作为多模态特征融合的 RoI 头。

ps:

Proposal Generation(提案生成): 在目标检测任务中,提案生成是一个初步步骤,其目标是从整个输入场景中生成若干个可能包含目标的区域,这些区域被称为“物体提案”(object proposals)。提案生成算法试图通过快速过滤,生成一些具有较高可能性的候选区域或3D框。例如,在3D目标检测中,LiDAR可以检测出可能包含物体的3D提案区域,这些提案区域在后续步骤中会进一步处理和精炼。

RoI(Region of Interest,感兴趣区域): RoI是指在目标检测中,从整个图像或场景中选定的感兴趣区域,它们通常与提案生成步骤产生的区域一致。在传统的2D检测中,RoI代表图像中的一块区域;而在3D检测中,RoI通常是3D空间中的一个立方体。RoI Head是神经网络中的一个模块,它接收裁剪的特征(如从图像、LiDAR等多种输入中提取的特征),并对这些特征进行处理,以精确预测目标的类别和边界框参数。

分析:中间融合方法的潜力和挑战。中间方法鼓励多模式表示的更深入集成并产生更高质量的 3D 框。然而,相机和激光雷达特征本质上是异构的,并且来自不同的视点,因此在融合机制和视图对齐方面仍然存在一些问题。因此,如何有效地融合异构数据以及如何处理多视图的特征聚合仍然是研究界面临的挑战。

后期融合方案

该方案是在目标检测的最后实例层面进行修正融合,这避免了中间特征或输入点云上的复杂交互。因此,与其他方法相比,这些方法更加有效。然而,如果不借助相机和激光雷达传感器的深层特征,这些方法无法集成不同模态的丰富语义信息,这限制了此类方法的潜力。

感觉并不适合做论文,所以不过多赘述。

Multi-sensor Fusion for Autonomous Driving

如题,多传感器融合。具体的调研暂时不展开。这里标记一下以后作为多模态传感器融合的主要研究方向的参考书目。

自动驾驶中的数据融合可以在多个任务中发挥作用,例如对象检测、语义分割、对象跟踪以及同步定位和建图。目前,高级别自动驾驶中最常见的融合模式是激光雷达与RGB摄像头的融合。 LiDAR点云可以主动感知更大范围内的物体,而不受光照条件的影响,而RGB图像提供的颜色、纹理等视觉信息可用于更高精度的视觉任务。

多传感器融合是利用计算机技术,在一定标准下自动分析、综合多源信息和数据,完成决策和估计所需的信息处理过程。

基于多传感器融合的感知方法在给自动驾驶系统带来收益的同时,也衍生出多种问题和挑战,例如多个传感器之间的标定、传感器故障的响应以及更多融合方法的探索等。

复杂天气/低对比度条件下的目标检测

参考的为群内下载的一些关于无人船和车辆检测的资料。

MSR(Multi-Scale Retinex)图像增强算法:

MSR模型参数是人工设置的(一般为高斯核),没有依赖实际的退化图像数据,因此算法对图像的增强程度具有局限性。针对上述问题,参考资料当中提出了一种基于卷积神经网络的MSSEN(Multi-Scale Squeeze and Excitation Networks)模型来进行低对比度图像增强。

MSR(Multi-Scale Retinex)算法是一种经典的图像增强算法,用于提高图像的视觉质量,尤其在低对比度或者光照不均匀的情况下。它基于人类视觉系统中的Retinex理论,模拟了人眼对亮度和颜色的感知机制,通过多尺度处理来增强图像的细节和对比度,同时抑制全局亮度的影响。

MSR算法的基本思想:

Retinex理论的核心理念是,图像中的颜色和亮度信息应当从反射率和光照中分离出来,增强图像的反射率(即物体固有的颜色和纹理信息),而不被不均匀的光照影响。MSR通过在多个尺度下应用Retinex来实现这一目标。

MSR是图像增强领域的一种经典方法,常用于低光照和高动态范围的图像处理中。

主要步骤是对数变换到高斯多尺度滤波,多尺度融合。其中的高斯环绕函数是人为设置的。

由于初始的MSR算法采用三个不同尺度的高斯环绕函数,MSRN也采用三种不同尺度的卷积核,其感受野从小到大设置为5,15,25。通过Inception结构后,将三个张量在通道维度上结合。这一运算符合MSR中对不同尺度SSR加权的结果。

大白话的核心就是把人为设置的参数变为神经网络提取特征之后训练出来的参数。

方向调研总结

对上述各种子方向(其实也都可以互相交叉的方向了)进行简要的总结,关于工程和学术上的——

1. 复杂天气中的SLAM

  • 工程意义:复杂天气(如雨雪、雾、强风)对传感器性能影响巨大,尤其是在户外自动驾驶和无人机导航中。解决这些问题有直接的商业应用价值。

  • 学术意义:该方向挑战了SLAM在不同环境条件下的鲁棒性,是研究的热点问题之一。如果你能提出在复杂天气下提升SLAM算法鲁棒性的创新方法,将非常容易发高水平论文。

  • 难度:高,需解决传感器噪声、图像质量下降等问题,但学术和工程价值都很高。

2. 点云增强

  • 工程意义:激光雷达点云数据在自动驾驶和3D建模中是核心数据源,但稀疏点云经常会导致定位、检测精度下降。通过增强稀疏点云,提高其分辨率或精度,对工程应用有直接推动作用。

  • 学术意义:该领域相关的研究较多,尤其是点云去噪、超分辨率和重建。你可以结合深度学习等方法在这个方向发论文,特别是如果能在数据稀疏或复杂环境下取得显著进展。

  • 难度:中等,点云数据的处理已有相对成熟的方案,创新空间仍有,但可能面临竞争激烈的局面。

3. RGBD多模态融合

  • 工程意义:RGB图像和深度信息的融合在自动驾驶、机器人感知和增强现实中有广泛应用。通过融合多模态数据,可以弥补单一传感器的不足,提升系统性能。

  • 学术意义:该领域已经有较多的研究,但仍有创新空间,特别是在如何高效地融合RGB和深度数据、处理多模态数据一致性问题上。如果提出新颖的融合算法或网络架构,可以发高质量论文。

    • 难度:中等偏高,主要挑战在于如何高效融合和处理多模态信息,但可操作性强,且容易产生工程落地效果。

4. 强光对抗/低对比度

  • 工程意义:强光条件(如逆光、日照强烈时)和低对比度场景(如黄昏或雾天)是视觉SLAM的典型难题。解决这类问题对自动驾驶中的摄像头视觉系统尤其重要。

  • 学术意义:这个方向已有一些经典研究(如HDR成像、低光增强等),但如果能够提出结合SLAM的鲁棒算法,应对这些场景下的定位与建图问题,具有很高的学术价值。

  • 难度:中等,属于一个较为专注的方向,但有创新空间。发文可结合视觉增强与SLAM算法的结合来提高效果。

5. 运动检测

  • 工程意义:运动检测在自动驾驶和机器人避障中有着核心作用,尤其是动态环境中的物体检测与跟踪。良好的运动检测能显著提高SLAM在动态场景下的性能。

  • 学术意义:如何在SLAM中结合运动物体检测并提升鲁棒性仍是研究热点。如果能提出结合传统SLAM与深度学习的运动检测新方法,特别是自适应处理动态场景的方案,发论文的机会较大。

  • 难度:中等,已有较多工作探讨这个问题,但结合深度学习与SLAM优化仍有创新空间。


总结:

  • 工程价值最高的方向是复杂天气中的SLAM,因为它直接解决了自动驾驶中的痛点问题,且市场需求明显。

  • 学术创新空间最大的是复杂天气SLAM和RGBD多模态融合,这两个方向在算法和系统设计上都有很大的提升空间。

  • 相对容易操作和落地的是点云增强,尤其是在稀疏点云的增强与重建上,已有一定的技术积累,可以较快推进。

目前来看,复杂天气中的SLAM和RGBD多模态融合会是很好的切入点。这两个方向不仅学术前沿,且在工程上也有广泛的应用场景。