基于四通道不可分加性小波与DeepLabv3+结合的语义分割模型

发布日期:2023年7月20日
基于四通道不可分加性小波与DeepLabv3+结合的语义分割模型 基于四通道不可分加性小波与DeepLabv3+结合的语义分割模型

本内容试读结束

下载后可阅读完整内容,立即下载

为了改善传统语义分割模型中因丢失细节,从而导致信息下降的问题,我们提出了一种改进的DeepLabv3+网络分割模型。首先将主干网络替换为MobileNetV2网络;其次通过构造四通道不可分小波低通滤波器,对源图像进行分解,提取源图像的高频子图;再次,将普通卷积更换为深度可分离卷积并且引入卷积注意力模块(CBAM)自适应细化特征,从而提高网络模型的分割效果。实验结果表明,改进后的模型在VOC数据集上均交并比(mean intersection over union, MIoU)比原始的DeepLabv3+模型提高0.94%,平均像素精度(mean pixel accuracy, MPA)比原始DeepLabv3+模型提高了1.34%,准确度比原始DeepLabv3+模型提高0.19%。在BDD100K数据集上均交并比比原始的DeepLabv3+模型提高0.53%,平均像素精度比原始DeepLabv3+模型提高了0.15%,准确率比原始DeepLabv3+模型提高0.13%。在主观和客观结果上均显示我们的模型优于原模型。

语义分割作为计算机视觉中的一个重要分支,通过为每个像素进行密集的预测推断标签来实现细粒度推理,从而实现图像像素级的分类。语义分割任务就是从低层语义向高层语义推理的过程。目前语义分割在现实生活,如自主驱动[1] [2] [3],人机交互[4],计算摄影[5],图像搜索引擎[6]以及增强现实技术等[7]具有广泛的应用。

在图像处理的早期,传统图像分割方式包括基于阈值的图像分割方法、基于边缘的图像分割方法[8] [9] [10]、基于区域的图像分割方法[11] [12] [13]、基于聚类的图像分割方法[14] [15] [16]和基于图论的图像分割方法[17] [18] [19]。

这些传统图像分割方法大多数是利用图像的表层信息进行分析处理,因此对于需要“处理”大量语义信息的图像分割任务并不适用。而基于小波变换的图像分割技术具有较强的抗噪声性能,并且能够有效地保留边缘信息,以达到分割的目的。

随着深度学习技术的不断发展, 涌现出了大量基于深度学习的高效语义分割方法。

其中Long 等人首次将卷积神经网络(CNN)的全连接改为卷积操作, 得到全卷积神经网络(FCN) [20]。

FCN 对图像进行像素级的分类, 从而解决了语义级别的图像分割问题, 被称为深度学习用于语义分割的开创之作。

随后SegNet网络[21],UNet [22],PSPNet [23],DeepLab 系列[24]等经典网络相继被提出。然而FCN 和SegNet 模型不够精细,没有充分利用上下文关系,UNet 网络冗余太大,PSPNet 网络得到的结果不够精细。Deeplab系列相比这些网络具有准确度高、速度快、参数量小和感受野大等优点。其中,DeepLabv3+利用空间金



相关标签