书目导读-多模态传感器融合-Multi-sensor Fusion for Autonomous Driving

这篇文章上次修改于 11 个月前,可能部分内容已经不适用,如有疑问可询问作者。

书目导读-多模态传感器融合-Multi-sensor Fusion for Autonomous Driving

前言

在自动驾驶领域,多传感器融合,尤其是视觉和激光雷达的融合是未来工业界和学术界发展的一个重要方向。这里找到了一篇清华大学的相关领域的参考书目,供自己记录和学习调研使用。

文章地址:Multi-sensor Fusion for Autonomous Driving

基础部分

1 相关名词介绍

Autonomous Driving 自动驾驶:

中国自动驾驶分级有0-5一共六个等级。从L2开始属于自动驾驶系统(即一定情况下不需要驾驶员操控),从L4开始是高度自主性。

Sensor 传感器:

对于自动驾驶的环境感知任务,最常用的传感器有相机、激光雷达( LiDAR )和毫米波雷达( RaDAR )。

视觉传感器主要涉及利用摄像头对目标(车辆、行人、交通标志)进行检测、跟踪和识别。具体功能可拆解为感知车辆周围的障碍物和可行驶区域,理解交通标志和道路标线的语义,理解当前的驾驶场景。

激光雷达( Light Detection and Ranging,LiDAR )作为一种基于激光测距机发展起来的主动成像RaDAR技术,通过发射和接收激光束,分析激光遇到目标物体后的返回时间,从而计算出相对距离。同时,基于此过程中采集到的目标物体表面信息,可以快速得到包括三维坐标、反射率和纹理以及三维模型在内的各种相关数据。因此,可以建立整个环境的三维点云地图,达到环境感知的目的。

车载毫米波 RaDAR 的本质是调频连续波测距 RaDAR。该型 RaDAR 具有结构简单、体积小的特点,可以同时获得被测目标的相对距离和相对速度。RaDAR 的基本原理是,当发射的连续调频信号遇到目标时,它会从发射的信号中产生具有一定延迟的回波。之后,由混频器进行混频过程,混频后的结果与被测目标的相对距离和相对速度有关。

Perception 感知:

对于图像上的目标检测,传统方法的准确性往往不如深度学习方法,而后者通常需要大型数据集和长期训练来学习特征。对于点云上的目标检测,优点是可以使用三维空间信息进行检测。但缺点是空间维度的增加导致点云数据过于稀疏,导致模型拟合效果不佳 。深度图像,即深度相机记录的带有距离信息的 RGB 图像,结合了图像和点云的特性,但由于相机的性能不足,尚未成为主流。总之,尽管不断提出针对多模态数据的目标检测方法,但大多数模型仍然基于图像。

目前的模型主要通过边界框的重合来评估效果,并通过设置阈值来确定预测是否正确,即交并比 IoU

在对象识别之后,对象跟踪是一个关键的处理步骤,它试图监控感兴趣的目标并生成其轨迹。根据运动轨迹的生成方法,目标跟踪算法可分为离线算法和在线算法。离线跟踪算法可以使用未来帧来使用全局信息优化跟踪结果。然而,自动驾驶系统本身需要实时数据处理;因此,通常采用在线监测技术。在线跟踪算法接受当前帧和历史帧的传感器数据和检测结果,并将检测结果与已有的历史目标轨迹相关联 。在这一方面相关滤波算法(传统的光流法、卡尔曼滤波法、均值偏移法和其他传统算法)跟踪在速度上具有优势,而深度学习方法具有更高的准确性 .

Multi-Sensor Fusion 多传感器融合:

传感器类型检测距离(米)行人检测物体检测物体识别功能优点缺点
摄像头50✔✔✔依赖机器视觉算法检测并识别周围环境的物体,检测前方障碍物和物体的距离,进行定位和环境建模能识别物体类型和颜色,低成本,受光线信号影响较小,价格低,样本学习效果好受光照条件影响大,依赖学习样本
LiDAR200✔✔✘静态物体检测,动态物体检测,道路表面检测,定位和环境建模能够检测大多数物体,高精度距离检测受大雨、大雪和恶劣天气影响大
毫米波雷达170✘✔✘车辆的运动检测,多用于自适应巡航控制和碰撞预警受雨雪影响较小,价格更低行人检测能力较差

数据融合发生在物体检测模型的不同阶段;因此,融合方法可以分为早期融合、中期融合或深度融合、以及后期融合。具体来说,早期融合侧重于原始数据或仅经过预处理的数据的融合,后期融合则融合模型多个分支的计算结果以获得最终结果。结合早期融合和后期融合的特点,中期融合结合多种模态的数据或其对应的特征图进行继续分析。中融合不仅可以存在于模型的中间步骤,也可以贯穿整个模型。这三种类型的融合在其他出版物中也称为数据级融合、特征级融合和决策级融合。

对于目标跟踪的任务也是如此。以往的实验都表明,基于传感器融合的跟踪算法的性能得到了提高,并且与数据级融合和决策级融合相比,特征级融合对跟踪性能的提升更为显着。

公共数据集

单独给这个开一列:

KITTI

Waymo Open Dataset

nuScenes

Cityscapes

ApolloScape
PandaSet

2 自动驾驶感知数据融合概述

文章摘要:在自动驾驶领域,数据融合研究具有重要的学术和应用价值。本章旨在总结近年来自动驾驶的数据融合方法。首先介绍了自动驾驶中深度目标检测和数据融合的发展以及现有的评论。从多模态物体检测、融合层次、计算方法三个方面全面展示了该领域的前沿进展。最后,讨论了未解决的问题,并总结了性能、挑战和前景。

深度学习简述

基于体积表示
基于索引/树表示
基于 2D 视图表示
基于图表示
基于点表示

基于点云表示的开山之作是PointNet和后续的PointNet++,详情见后续博客。

深度补全融合

深度补全的目的是将稀疏的不规则深度上采样为密集的规则深度,这有利于下游的感知模块。深度补全可以减少激光雷达扫描中点的严重不均匀分布。例如,对由充满点的手表示的远处对象进行上采样以匹配其较近的对应对象。为了实现这一点,通常采用高分辨率图像来指导 3D 深度上采样。

图像引导深度补全背后的想法是密集的 RGB/颜色信息包含相关的 3D 几何形状。

ADD:简要概括就是,点云作为深度信息的一种表示方式,通过相机的图像信息,结合原本的点云特征而以神经网络计算的方式得到补全。

信号级融合
特征级融合
多级融合

与 RGB 图像相比,立体相机的密集深度视差包含更丰富的地面真实 3D 几何形状。另一方面,LiDAR 深度稀疏但精度较高。值得注意的是,立体摄像头的范围有限,并且在高遮挡、无纹理的环境中表现不佳,这使得它们不太适合自动驾驶。

动态物体检测中的融合

对象检测 (3D) 旨在定位、分类和估计 3D 空间中的定向边界框。本节致力于动态物体检测,包括常见的动态道路物体(汽车、行人、骑自行车的人等)。目标检测有两种主要方法:顺序检测和一步检测。基于序列的模型按时间顺序由提案阶段和 3D 边界框 (bbox) 回归阶段组成。在提议阶段,提议可能包含感兴趣对象的区域。

提案——2D/3D:

基于 2D 提案 的顺序模型尝试在提案阶段利用 2D 图像语义,从而利用现成的图像处理模型。具体来说,这些方法利用图像对象检测器生成 2D 区域建议,并将其投影到 3D 空间作为检测种子。有两种投影方法可将 2D 提案转换为 3D。第一个是将图像平面中的边界框投影到点云,从而产生截头锥体形状的 3D 搜索空间。第二种方法将点云投影到图像平面,这会产生具有逐点二维语义的点云。

下面是不同的融合方法,点击可展开

结果级融合
多级融合
特征级融合

在基于 3D 提案 的序列模型中,3D 提案直接从 2D 或 3D 数据生成。 2D 到 3D 提议转换的消除极大地限制了 3D 对象检测的 3D 搜索空间。 3D 提案生成的常用方法包括多视图方法和点云体素化方法。

基于多视图的方法利用点云的鸟瞰图 (BEV) 表示来生成 3D 提案。 BEV 是首选视点,因为它可以避免遮挡并保留对象方向和 x、y 坐标的原始信息。这些方向和 x、y 坐标信息对于 3D 对象检测至关重要,同时使 BEV 和其他视图之间的坐标转换变得简单。这使得应用标准 3D 离散卷积并利用现有网络结构来处理点云成为可能。缺点是损失了一些空间分辨率,其中可能包含细粒度的 3D 结构信息。

特征级融合

基于体素和图像的融合的方法

MVX-Net
附加信息通道
一步模型

静止道路目标检测中的融合

本节重点回顾基于相机-激光雷达融合的静态道路目标检测方法的最新进展。静止道路物体可以分为道路上物体(例如路面和道路标记)和路边物体(例如交通标志)。道路和路边物体为自动驾驶车辆提供法规、警告禁令和指导。

基于前置摄像头视图的方法将 LiDAR 深度投影到图像平面以提取路面,但在 2D 到 3D 边界转换过程中会出现精度损失。 LCNet比较了道路检测的信号级融合(早期融合)和特征级融合(后期融合和交叉融合),发现交叉融合是性能最好的融合策略。与[13]类似,PLARD 在多个阶段逐步融合图像和点云特征。李等人。专注于通过减少输入大小的球面坐标变换方案来提高速度。这些转换后的相机和 LiDAR 数据由基于 SegNet 的语义分割网络进一步处理。

在激光雷达扫描中,交通标志由于其逆反射特性而具有很高的可区分性,但由于缺乏致密的纹理,因此难以分类。相反,交通标志图像块可以很容易地分类。然而,基于视觉的 TSR 系统很难在 3D 空间中定位这些交通标志。因此,各种研究建议同时利用相机和激光雷达进行 TSR。

为了缓解这些挑战,Deng 等人。结合图像和点云生成彩色点云,用于交通标志检测和分类。此外,利用检测到的交通标志的 3D 几何特性来减少误报。在[6]中,交通标志的检测基于先验知识,包括道路几何信息和交通标志几何信息。检测到的交通标志斑块通过 Gaussian-Bernoulli DBM 模型进行分类。遵循这一理想,Guan 等人。使用卷积胶囊网络进一步改进了交通标志识别部分。总而言之,这些方法利用多模态数据和先验知识改进了交通标志检测阶段。然而,先验知识通常是特定于地区的,这使得很难推广到世界其他地区。

语义分割中的融合

2D/3D 语义分割旨在预测每像素和每点的类标签,而实例分割也关心单个实例。

二维语义分割方法有多种,例如特征级融合。瓦拉达等人。采用不同深度的多阶段特征级融合来促进语义分割。卡尔塔吉罗等人。利用上采样深度图像和图像进行 2D 语义分割。使用稀疏深度图像(来自点云)和图像对该密集深度图像进行上采样。性能最佳的交叉融合模型在两个并行的 CNN 分支中处理密集的深度图像和图像数据,并在最终的卷积层中融合两个特征图。

还有几种 3D 语义分割方法。特征级融合:Dai 等人。提出了 3DMV,一种用于 3D 语义分割的多视图网络,它融合了图像语义和体素化点云中的点特征。 2D CNN 从多个对齐图像中提取图像特征,并将其投影回 3D 空间。这些多视图图像特征在输入 3D CNN 进行逐体素语义预测之前,按体素最大池化并与 3D 几何体融合。在 ScanNet 基准测试中,3DMV 的性能优于其他基于体素的方法。然而,基于体素的方法的性能由体素分辨率决定并受到体素边界伪影的阻碍。

为了缓解点云体素化引起的问题,Chiang 等人。提出了一种基于点的语义分割框架(UPF),该框架还可以实现图像特征、几何结构和全局上下文先验的高效表示学习。使用语义分割网络提取渲染的多视图图像的特征,并将其投影到 3D 空间以进行逐点特征融合。该融合点云由两个基于 PointNet++ 的编码器进行处理,以提取局部和全局特征,然后输入解码器进行每点语义标签预测。类似地,多视图 PointNet (MVPNet) 融合多视图图像语义和 3D 几何来预测每点语义标签。

物体跟踪中的融合

多对象跟踪(MOT)旨在维护对象的身份并跨数据帧跟踪其位置(随着时间的推移),这对于自动驾驶车辆的决策是必不可少的。

MOT算法可以分为基于检测的跟踪(DBT)和无检测跟踪(DFT)框架。 DBT 或检测跟踪框架利用对象检测器产生的一系列对象假设和更高级别的线索来跟踪对象。在 DBT 中,通过数据(检测序列)关联或多假设跟踪来跟踪对象。相反,DFT 框架基于有限集统计(FISST)进行状态估计。常见的方法包括多目标多伯努利(MeMBer)滤波器和概率假设密度(PHD)滤波器。

基于检测的跟踪(DBT):检测跟踪框架由两个阶段组成。在第一阶段,检测感兴趣的对象。第二阶段将这些对象随时间关联起来,并将它们表述为轨迹,轨迹被表述为线性程序。弗罗萨德等人。提出了一种端到端可训练的检测跟踪框架,该框架由多个利用图像和点云的独立网络组成。该框架连续执行对象检测、提案匹配和评分以及线性优化。

无检测跟踪(DFT):在DFT中,通过基于过滤的方法手动初始化和跟踪对象。 Complexer-YOLO 是一个实时框架,用于对图像和点云数据进行解耦 3D 对象检测和跟踪。在 3D 对象检测阶段,提取 2D 语义并将其逐点融合到点云中。该语义点云被体素化并输入到 3D ComplexYOLO 中以进行 3D 对象检测。为了加快训练过程,IoU 被一种称为“缩放-旋转-平移”(SRT) 分数的新指标取代,该指标评估边界框位置的 3 个 DoF。多目标跟踪与检测分离,并通过标记的多伯努利随机有限集(LMB RFS)滤波器实现推理。

总结

文章以上总结了多模态数据融合情况下,各个不同的结构以及对应的论文和研究成果。

总体来说,融合的阶段方面,分为前中后期,或者说原始数据融合,特征融合,结果融合。通常而言结果融合简单快捷容易出效果。而多个阶段的多级融合效果往往更好。当然也意味着网络结构会更加复杂。

数据方面,基础的输入主要分为体素,点,多视图等数据格式。进一步处理可以有特征数据和多视图数据(配准)。结果级别融合根据任务的不同也有不同的结果数据。维度上分为2D数据(主要来源于摄像头)和3D数据(主要来源于激光雷达)。2D的数据处理主要是想办法投影到3D的区域,并和3D数据结合并配准。

网络框架上,图像的特征提取部分主要还是在依赖于相应任务。大部分工作确实是集中在”融合“这一点上。个人理解上,工业界的自动驾驶主要过程在于决策以及快速决策。故YOLO类的快速而非体素细粒度的分割和目标检测实际上相当适用(即车辆只需要知道有一个范围的物体是不可碰撞的即可,而在高速驾驶情况下如何减少误判是需求高速检测,复杂天气下如何提高识别的准确性是另一个在快速与精确度之间的取舍和权衡)

方法论

3 多传感器校准.

激光雷达可以提供精确的三维几何信息,但点稀疏。相反,相机能够提供丰富的环境表现,但距离信息不太准确。这些传感器的外在变换矩阵可以将这两个互补的传感器结合起来并最大化效果。

随着自动驾驶汽车多模态感知系统中使用的传感器越来越重要,这些传感器之间的精确外在参数对于提供高精度感知系统至关重要。在不同负载下的长期运行可能会导致外在变换矩阵发生微小的变化和漂移,从而影响感知精度。因此,在运行过程中自动纠正错误校准至关重要。因此,它们之间准确的外在参数对于为感知系统提供准确的信息至关重要。

传统的手动校准方法需要专门设计的物体,例如棋盘[2]或手动选择的点[6],这导致校准过程繁琐。此外,长时间运行和不同的负载可能会导致外部参数的轻微漂移和偏差。因此,需要自动在线校正来适应这种不可预见的传感器移动。

当前的自动校准工作利用互信息[10]或人工设计的目标[3]来校准外在参数。特定目标和强度信息的使用将校准过程限制在实验室设置和特定传感器范围内。其他一些基于特征的校准方法 [1] 利用边缘计算外部参数的特征。然而,这些特征在某些场景下并不能很好地对应。

基于线(特征)的多传感器校准

在本节中,选择线特征来约束其普遍存在的外在参数。最初,从点云和图像中提取和过滤线特征。然后,利用自适应优化来提供准确的外在参数。所提出的方法证明,线特征是鲁棒的几何特征,可以从点云和图像中提取,从而有助于外在校准。为了展示该方法的优点,作者在 KITTI 基准上使用真实值对其进行了评估。实验验证了该校准方法的准确性。在数百帧的在线实验中,该方法自动校正误标定误差,达到0.2°的精度,验证了其在各种场景下的适用性。这项工作可以为感知系统提供基础,并进一步提高利用这些传感器的其他算法的性能。

这项工作旨在释放这一限制并简化校准激光雷达和相机外在参数所需的过程。为此,我们利用强大且广泛的线特征来自动计算这些传感器之间的变换矩阵,而无需手动标记。作为输入,所提出的方法需要单个图像和先前的几个点云以及初始外在参数。这项工作中使用的线条特征通常分布在室外环境中,例如树木、路灯、汽车等。通过应用这些线条特征,所提出的方法可以根据外在变换矩阵的漂移和变化进行自动调整,如图所示如下图所示。

这项工作的基本假设是,当校准参数正确时,点云中的线特征对图像中的线特征具有高度响应性。除此之外,还假设相机和激光雷达的内在参数已经校准,并且激光雷达数据和相机图像是同时捕获的。

在图像处理中,首先将RGB图像转换为灰度图像,然后通过线条检测算法提取线条特征。

在LiDAR处理中,原理是利用距离不连续性来获取更多的边界线特征。为了实现这一目标,采用局部映射方法将三帧点云合并为一帧,这样可以在一帧中呈现更多的点。

4 多传感器物体检测

3D物体检测正在成为自动驾驶环境感知不可或缺的功能模块,基于LiDAR的检测方法在精度方面取得了显着进步。然而,点云通常无法区分具有相似结构的物体,从而导致错误检测。因此,其他传感器和激光雷达融合自然被认为是一种解决方案。然而,当前的融合方法要么精度差,要么效率低。

为此,本章提出了一种名为RIFusion的即插即用模块,以实现LiDAR和相机的有效融合,并且该模块可以通过现有的基于LiDAR的算法轻松访问。此外,还提出了一种基于多模态、多尺度融合的雷达和16线激光雷达的特殊融合方法,称为M2-Fusion。通过使用自注意力机制交换中间特征层的信息来学习每种模态的特征来实现交互。实验表明,该方法具有较好的环境适应性和较低的成本。

激光雷达图像融合目标检测

摄像头和激光雷达传感器广泛应用于自动驾驶汽车,但它们的局限性也很明显。相机无法获取物体的距离信息,并且对光照的变化非常敏感。激光雷达可以弥补相机的这些缺陷。激光雷达点云能够充分反映周围环境的事实坐标信息,并且不受光照变化的影响。因此,图像和激光雷达特征的多模态融合来补充其缺陷是一种有前途的方法。

由于 LiDAR 点云可以转换为紧凑的 2D 距离图像,从而使其处理效率更高,作者提出了一种新颖的距离-图像融合网络来融合点云和 RGB 图像。距离-图像是原始的表示,保留了点云的所有原始信息。该方法减少了点云和RGB图像之间数据表示的差异。点云中各点之间的位置关系通过距离图像中像素之间的相对位置来表示。并且可以使用CNN(卷积神经网络)直接对距离图像进行编码,这对于整合RGB特征是有效的。我们工作的主要贡献如下:

RI-Fusion 框架

虽然GitHub上找到了,但是Master完全没有写说明文档属于是。Github跳转地址

其他的几个分支都有维护,可以先留着观察,包括后续做复现可学习,其项目组还发了相关的IEEE期刊。mark相应的这个即插即用的模块。

RaDAR-LiDAR 融合目标检测

4D 预处理雷达点云

基于交互的多模态融合(IMMF)

基于中心的多尺度融合(CMSF)

挑战与前景

5 多传感器场景分割

多模态融合分割中的注意力机制

多模态融合分割中的自适应策略

MIMF 网络

视频多模态融合分割

总结

6 多传感器融合定位

GF-SLAM

半动态环境中的终身定位.

总结

进阶

7 OpenMPD

实验-物体检测

实验-语义分割

8 车路多视图交互数据融合

9 数据融合中的信息质量

数据融合的不确定性

噪声下检测模型退化

信息数据融合

信息论背景下的多模态融合

多模态模型

总结