在自动驾驶、无人机等处理器资源受限的任务中,需要考虑模型的参数量和运算速度,并确保较好的准确性。一些语义分割模型采用并行式结构提取多尺度信息时,使用深度可分离卷积或分组卷积替换常规卷积来降低计算量。但这些操作存在增加网络延迟,降低推理速度的问题。基于此问题,提出一个基于编码器–解码器的实时语义分割模型。编码器阶段,使用部分卷积结合扩张卷积构建不同的并行式模块,用于提取不同阶段的多尺度信息。解码器阶段,使用融合上采样特征的方式。模型在Cityscapes和CamVid数据集上进行实验,平均交并比分别为71.3%和66.8%,运行速度分别为97帧/s和98帧/s,结果表明该模型在分割精度和运行速度之间达到较好平衡。
图像语义分割(Image Semantic Segmentation)作为计算机视觉中一个重要基础性研究方向,对图像进行处理时可以实现计算机自动分割并识别出图像内容。其目的是对图像中的每个像素,按照语义类别分割为不同的区域并标记成不同的颜色,获得具有像素语义标注的图像。近年来,图像语义分割技术在自动驾驶、无人机、医学影像分析等领域都有着重要的应用价值。这些应用要求对图像进行实时语义分割, 即网络的运行以每秒至少30 帧的速度对图像进行处理,从而实现对场景的实时感知与理解。实时语义分割网络要求在处理器资源受限的情况下,构建一种“轻量且高效”的模型对图像进行快速处理并能保证准确性,因此实时语义分割面临更大的计算效率和速度的挑战。
Long [1]等提出了全卷积网络(FCN),将卷积神经网络[2] [3] [4]的全连接层替换为卷积层,解决了语义级别的分割问题。但因其在下采样中丢失了大量的信息,导致最后的分割结果粗糙。为了防止丢失空间细节信息,Ronneberge [5]等提出了U-Net 编码器–解码器网络,使用跳跃连接融合编码器中的各层特征信息。
为了减少在下采样时空间信息的丢失, Chen 等[6] [7] [8] [9]提出了DeepLab 系列网络, Depplabv1利用空洞卷积层取代普通卷积层, 无需下采样而增加大网络的感受野;Depplabv2 引入空洞金字塔池化结构(ASPP)以整合多尺度特征信息,提高分割适应性。Deeplabv3、Deeplabv3+,优化了ASPP 模块和网络结构,在精度和速度方面表现优异。随着深度学习发展,一些模型不断增加网络层数和参数数量,使网络分割精度提高。但这些模型存在计算复杂度高,导致运行速度低的问题,难以应用于动态场景中的实时语义分割任务。因此,研究实时语义分割以实现对动态场景的低延迟感知非常必要,对于低延时较高精度的实时语义分割网络模型成为了研究的重点。
Zhao 提出的ICNet [10]通过图像金字塔技术实现三种不同尺度的图像输入,有效融合多尺度特征信息提高分割效果。Li 提出的DFANet [11]模型在主干网络部分使用修改后的Xception [12]用于特征提取, 并以级联方式聚合特征。SFNet [13]模型在编码器中使用ResNet [14]、ShuffleNetV2 [15]作为主干网络用于特征提取, 并提出了FAM 来学习解码器中的语义信息。
Yu 等提出的BiSeNet [16]在上文下文路径中使用Xception [12]作为特征提取主干,并设计了一个特征融合模块(FFM)来合并特征信息。这些轻量级语义分割网络模型的主干网络都是采用图像分类模型的轻量级主干网络,但这些专用于分类模型的轻量级主干网络不能完全适用于语义分割模型。一些工作便设计专用语义分割的轻量级主干网络结构,如Paszke