基于双重注意力特征增强网络的语义分割方法

发布日期:2020年11月13日
基于双重注意力特征增强网络的语义分割方法 基于双重注意力特征增强网络的语义分割方法

本内容试读结束

下载后可阅读完整内容,立即下载

语意分割作为计算机视觉领域的研究热点之一,在地理信息系统、医疗影像分析和机器人等领域有广泛应用。然而现有的语义分割方法主要面临两个挑战,即类内不一致和类间难区分问题。为此,我们提出了一种基于双重注意力特征增强网络的方法来实现语义分割。该方法采用位置注意力模块与通道注意力模块来获取丰富的空间信息与上下文信息,并且在网络末端添加金字塔池化模块来聚合不同区域的上下文信息,提高网络捕获全局信息的能力。最终在标准数据集上的实验结果验证了本文方法的有效性。

语意分割作为像素级别的分类任务,在自动驾驶,人机交互,增强现实等领域有广泛应用[1]。由于深度学习具有拟合能力及表征能力强、灵活性高、应用范围广等优点[2],因此近年来许多图像语义分割问题使用深度学习来解决。美国伯克利大学研究团队提出了全卷积网络[3],该网络由编码器和解码器组成,编码器是利用卷积层及池化层对图像进行下采样,解码器是利用反卷积层实现上采样,恢复图像分辨率,实现端到端训练的全卷积网络。为了保证输入的空间分辨率同时增加感受野,Fisher Yu 等人提出了扩张卷积[4],相对于传统卷积核各个像素是紧密相连的,扩张卷积依据扩张率来控制卷积核中各个像素之间的间隔,将最后几层池化层替换成了扩张率逐渐升高的扩张卷积层来进一步提高算法的精度。华中科技大学王兴刚等人通过改进了非局部神经网络[5]提出了交叉关注语意分割算法[6],该算法能在更好地捕获上下文语意的同时减少GPU 运行内存, 提高计算效率。然而上述算法并不能在获取足够上下文信息的同时保证精准的空间信息。

为了在不损失空间信息的前提下获取充分的上下文信息, 一些研究[7] [8]在U-Net [9]结构的基础上连接来自高阶和低阶的特征来捕获空间信息和上下文信息。此外,BiSeNet [10]设计了包含小步幅卷积层的空间路径来获取空间信息,同时提出了包含下采样策略的上下文路径来获得较大的感受野及上下文信息,最后,引入特征融合模块来融合由上面两路径生成的特征。尽管这些方法可以确保空间及上下文特征的获得,但是它们难以分辩外观不同但是具有相同语义标签的对象。

为此,通过借鉴特征鉴别网络[11],本文提出了双重注意力特征增强网络用于实现语义分割。如图1 所示,该网络包括平滑网络与边界网络,前者用于处理类内不一致问题,后者用于解决类间难区分问题。为获取更精准的图像细节信息,本文提出在平滑网络中加入位置注意力模块用于捕获由网络低阶产生的有效的空间特征,依据图像处理中的非局部均值原理,该模块在计算某一特定像素点的特征时,采用对图像中所有点的特征值进行加权平均,其中各个特征分配的权值取决于各个像素之间的依赖关系, 同时,利用通道注意力模块来获取由网络高阶产生的精准的上下文信息,通道注意力模块与位置注意力模块构成双重注意力机制来捕获网络不同阶段所产生的有效语义特征。另一方面,我们采用修正残差模块统一实验过程中平滑网络的内部通道数及进一步细化各个阶段产生的语义信息。最后,在残差网络的末端加入金字塔池化模块[12],以此获取局部及全局有效的语义信息。



相关标签