针对有限的卷积接受域阻碍了全局关系建模的问题,本文提出一种基于残差U块和上下文变换器的三分支实时语义分割算法,该网络采用空间信息、上下文信息、边界信息三个并行的分支结构,并且采用不同深度的残差U块构建网络的上下文信息分支来获取更具鲁棒性的多尺度特征。同时增加上下文变换器模块来增强全局关系建模能力。通过实验表明了该方法的有效性,在Cityscapes数据集上,没有使用预训练的情况下可以在单个V100上使用全分辨率图像(1024 × 2048)以76.5 FPS的速度达到78.6% MIoU。
语义分割是计算机视觉中的一项重要任务,它旨在将输入图像的每个像素划分到特定的类别中。随着深度学习的发展,语义分割已经成为众多领域的关键技术,包括自动驾驶[1]、医学影像诊断[2]以及遥感成像[3]等。
自从全卷积网络(Fully Convolutional Network, FCN) [4]被提出解决图像分割问题以来, 深度学习技术在准确率和效率方面开始超越传统的基于手工特征[5]方法。
一些创新模型如Deeplab [6]、PSPnet [7]有效地学习像素间的上下文关系,显著提高了分割的准确性。为了进一步提升性能,研究人员开发了多种策略,使这些模型能够捕获丰富的上下文信息,同时保留关键细节。然而,这些模型往往伴随着高昂的计算成本,这一点在需要实时处理的应用场景中如自动驾驶[8]和机器人辅助手术[9]中不能满足需求。因此,尽管这些模型取得了卓越的分割性能,但在实际应用中的普及仍面临挑战。
为了满足实时分割的需求,研究者们已经提出了许多高速语义分割的模型。ENet [10]在早期采用了轻量级解码器, 对特征图进行了下采样。
ICNet [11]对小尺寸输入进行复杂的深度编码, 以解析高级语义。
MobileNets [12]用深度可分离卷积取代了传统的卷积。这些早期的工作减少了分割模型的延迟和内存使用,但低准确率显著限制了它们在实际应用的普及。近年来,许多基于双分支和多分支的模型被提出, 随着移动设备部署需求的不断增长实现了较好的分割速度和精度之间的平衡。
在本文中, 我们提出了一个具有深度高分辨率表示的三分支网络用于道路驾驶图像的实时语义分割。
我们的网络从一个主干开始,然后分成三个具有不同分辨率的平行分支。第一个分支生成相对高分辨率的特征图提取空间信息,第二个分支通过使用多次残差U 块提取多尺度语义信息,第三个分支生成边界信息, 在三个分支之间架起多个双边连接, 实现信息融合。
此外, 我们引入了上下文变换器模块(Contextual Transformer, CoT), 该模块融合卷积神经网络(CNN)的局部感知能力和Transformer 的全局依赖建模能力, 可以提高模型对图像中不同部分之间关系的理解和表示能力。
本文主要贡献如下: (1) 使用U2-Net [26]中提出的RSU 模块来构建网络的上下文信息分支,大大提高了网络的多尺度特征提取能力。
(2) 在下采样阶段使用CoT 模块[25], 生成临近间上下文信息和全局上下文信息, 从而增强模型的视觉表达能力。
(3) 构建了一个实时的三分支语义分割网络, 没有使用预训练的情况下在Cityscapes 数据集上以76.5