随着科技的发展,利用深度学习的方法帮助遥感图像地物覆盖语义分割工作取得了很大的进展。然而,针对于遥感语义分割数据集中存在的像素分布不平衡问题,我们提出了基于注意力的HRNet (Atten-tion-based HRNet, AbHRNet)结构。首先,针对于各个类别目标之间的像素数量不平衡问题,本文在特征提取网络中引入了卷积注意力模块,使得网络对于我们感兴趣的目标特征尤其是数量较少的目标特征赋予了更多的关注,并减小了由复杂的背景信息带来的干扰;其次,针对于目标和目标、目标和背景之间像素数量不平衡的问题,在基准网络交叉熵损失的基础上又引入了二元交叉熵损失和Dice Loss,以实现对背景样本的有效监督,并解决由于像素数量不平衡带来的模型难以优化的问题。在LoveDA数据集上的实验结果表明,我们提出的AbHRNet的平均交并比达到了51.14%,相较于基准HRNet模型提升了1.97%,尤其是帮助分割效果很差的荒地类别的精度提升了一倍。
随着科学技术的不断发展,通过卫星得到的遥感图像的空间分辨率不断提高,而利用高分辨率的遥感图像可以帮助地物覆盖制图工作取得更好的效果,从而清楚地了解土地及其生态环境以做出更准确的城乡规划决策。遥感图像的地物覆盖语义分割作为一个对于生产生活具有重要意义的研究课题,近年来在算法层面开展了许多相关的研究工作,像Long 等人首先提出了全卷积神经网络(Fully Convolutional Networks, FCN) [1], 通过端到端的训练实现了像素到像素的语义分割;剑桥大学团队提出了SegNet 网络[2],采用编码和上采样加反卷积的解码结构,使网络不仅保留了图像的边缘信息还减小了计算量;Noh等人提出了DeconvNet 网络[3],采用了编码和反卷积加反池化的解码结构,通过集成深度反卷积网络和提案式预测, 缓解了FCN 网络的局限性;Ronneberger 等人设计了一个对称的U 型网络——UNet [4], 同样采用编码–解码结构,并在特征间进行有效的信息融合,使得网络能够在较少的训练图像下产生精确的分割结果;Zhou 等人提出了UNet++网络[5],采用深度监督的编码–解码结构,通过一系列嵌套的密集跳跃连接减小了低层特征和高层特征之间的语义间隙, 实现了比UNet 更精准的语义分割结果。
可以看到,目前一些主流的语义分割算法采用的都是编码–解码结构,其特点是在编码器中将高分辨率到低分辨率的卷积串联起来,逐步减小特征图的大小;而在解码器中,利用上采样、反卷积等操作,将特征恢复到高分辨率。而最近由Wang 等人提出的HRNet [6]则是从一个高分辨率卷积流开始,逐步添加低分辨率的卷积流,并将多个分辨率卷积流并联起来,通过在整个训练过程中保持高分辨率表示,避免从低分