针对复杂多变的道路环境,综合国内外研究现状,本文从激光雷达和摄像头方面论述了汽车自动驾驶中的网络输入的格式,并以两种传感器融合为例,归纳了自动驾驶汽车环境感知任务中多模态传感器融合的分类方法,在此基础上,又从融合阶段的角度总结出另一种分类,简化了融合方法的分类和理解,强调了融合程度的区别以及融合方法的整体性,这种分类对于推动融合方法的研究和发展具有创新价值。最后分析传感器融合所遗留的问题,对未来的发展趋势进行预测。
不同的传感器数据经过预处理或同一种传感器数据经过不同的预处理, 都可视作不同的数据模态, 传感器的融合也就是数据的融合。当今,自动驾驶是车辆工程的研究热点,车辆安装摄像头、激光雷达、毫米波雷达等传感器用于感知道路环境信息,由于原始数据噪音大,信息利用率低以及多模态传感器未对齐等原因,很难提高感知的准确性和容错率,如图1 所示,RGB 相机能够获取具有颜色,纹理,轮廓等稠密的特征信息,但在光照不足、曝光过度情况下效果较差,并且缺少深度信息;而雷达拥有获取距离信息的能力,但因为点云本身具有稀疏性和不规则性,容易出现小目标漏检的状况。基于上述情况,一些研究将摄像头和激光雷达这两个分支组合使用,融合图像与点云数据,两者互补在感知任务上的性能。
Figure 1. Image and radar perception tasks 图1. 图像与雷达的感知任务 综合激光雷达点云数据对空间的位置信息和RGB 图像丰富的语义信息, 该方法有着巨大优势, 遵循传统融合分类方法可将其分为前融合(Early Fusion)、深度融合(Deep Fusion)、后融合(Late Fusion)三种[1]。
Early Fusion 以PointPainting [2]为代表,是由Vora 等人提出用图像语义分割的结果来给点云“染色”的方法。Deep Fusion 是多模态数据融合的主流方式,如Qi 等人提出的F-PointNet (Frustum PointNet) [3], 在PointNet [4]与PointNet++ [5]之上融合RGB 图像所提出的一种两阶段的方法。与之相比,Liang 等人提出的ContFuse [6]是Deep Fusion 更好的范例,将前视视角的RGB 特征转换到鸟瞰视角(BEV)是其主要创新点。Yoo 等人提出的3D-CVF [7]利用跨域特征映射模块来提取多个摄像头的图像特征转换到鸟瞰视