因为遥感图像背景复杂,所以提取判别性强特征是遥感图像检索的一个核心技术。本文引入双重自注意力模块,利用空间和通道上的长距离上下文信息,编码局部特征,从而增强特征的表达能力。本文分别在3个典型的数据集上做了实验,在UC Merced Land Use、Satellite Remote Sensing Image Database、NWPU-RESISC45的平局检索精度分别为0.92、0.90和0.89。实验表明,双重自注意力深度学习网络对遥感图像检索性能的提升有显著的作用。
随着遥感图像技术的高速发展,遥感图像的数量急剧增加。如何在大型遥感数据库中有效地组织, 管理和检索遥感图像,已经成为遥感图像应用中的紧迫而迫切的问题。其中,基于内容的遥感图像检索(CBRSIR) [1] [2]是遥感应用中最关键的技术。CBRSIR 可以概括为两个步骤:特征提取和相似性度量。
CBRSIR 的性能通常取决于从遥感图像中提取的判别特征[3]。因此,作为CBRSIR 的最关键步骤,特征提取是大多数CBRSIR 研究的重点[4]。
特征提取主要有两种方法:基于手工特征的方法和基于学习特征的方法[5]。
基于手工特征包括颜色、纹理、形状等全局特征和基于SIFT [6]和SURF [7]的局部特征。此外,词袋模型(BOW) [8] [9]和局部聚集描述符的向量(VLAD) [10]用于编码局部特征,可以进一步增强特征的表达能力。无论是全局特征还是局部特征,它们都不能很精确地表达图像,所以在高级语义和低级语义之间存在“语义鸿沟”。随着深度学习的发展,卷积神经网络(CNN),在计算机视觉领域,例如分类[11] [12] [13]、检测[14] [15] [16]、分割[17] [18]等方面,展现了优异的性能优势,CNN 已经广泛应用于图像特征提取。CNN 可以通过大量的卷积层堆叠来提取高级语义特征。
GE 等人[19]将在ImageNet 上训练得到预训练模型应用到遥感图像数据集上,表明CNN 的特征明显优于传统的手工特征。
然而, 在现有的CNN 特征提取方法中存在一个问题。
与其他图像相比, 遥感图像具有几个特殊特征。
例如,即使在同一类别中,不同图像中的目标也可能具有不同的大小,颜色和角度。更重要的是,目标区域周围的其他材料和背景可能会导致较高的组内差异和较低的组间差异。
因此, 在现有的CNN 特征提取方法中存在一个问题,即提取到的特征空间中的图像表示可能无法准确反映其真实类别信息。准确检索具有相似视觉内容的图像需要提取足够描述性和鲁棒性的特征。
针对上述问题,在Fu 的研究[20]的启发下,本文提出了一种双重注意力模型。本文的主要贡献分为两个部分: 1) 本文设计了一种双重注意力深度学习网络,通过捕获空间和通道的特征依赖关系,提取具有复杂背景的遥感图像的显著性特征,以准确反映真实类别信息。
2) 本文引入的双重注意力模块包括空间注意力模块和通道注意力模块。对于空间注意力模块,使用自注意力机制来捕获特征图上任意两个位置上的依赖关系。对于通道注意力模块,我们引入自注意力机