基于显著性融合的细粒度图像分类方法研究

发布日期:2019年12月2日
基于显著性融合的细粒度图像分类方法研究 基于显著性融合的细粒度图像分类方法研究

本内容试读结束

下载后可阅读完整内容,立即下载

针对细粒度图像存在的类内差异大、类间差异小和依赖数据标注的问题,提出了一种基于显著度融合改进细粒度图像分类的算法。该算法基于一种双输入的深度神经网络,包括显著性特征融合结构和特征提取网络两个部分。首先,根据Fusion层网络结构将原RGB图与显著图进行特征融合,显著图是由SALICON显著性检测算法计算产生;其次,为充分利用更高分辨显著特征的调制潜力,利用最大池化操作对数据空间进行降维操作;最后,借助迁移学习思想,把在ImageNet数据集上预训练好的深度神经网络模型Inception_V3.0作为基础特征提取模型,进一步提取高层语义特征。在公开数据集CUB200-2011和Stanford Dogs中进行对比实验,结果表明,该算法的分类准确率分别达到84.36%、84.94%,相较于Part R-CNN、LRBP等多个主流细粒度分类算法,本文方法能取得更好的分类效果。

细粒度图像分类又被称为子类别图像分类,目的是对粗层级的大类别进行更加细致的子类划分。与之相关的研究课题主要包括识别不同种类的鸟[1],犬[2],飞机模型[3]、花种[4]及车[5]等。细粒度图像容易受姿态、光照、遮挡、背景干扰等诸多不确定因素的影响[6],使得子类别具有类内相似度大而类内相似度较小的特点。

而且细粒度图像的信噪比很小, 不同子类别间的差异主要表现在细微的局部区域上, 若想要挖掘足够区分度的信息,通常需要借助人工数据标注和图像类别标签。面对复杂、耗时、昂贵、易错的标注程序,进一步研究如何降低人工标注成本与有效利用局部区域信息成为细粒度图像分类算法未来发展的趋势。

细粒度图像分类的研究经历了传统人工设计阶段和深度学习阶段。基于人工特征的算法最先采用视觉词袋模型[7]。

Wah 等人[1]提出基准方法, 定位图像局部区域并将视觉词模型编码后的特征输入到SVM分类器进行训练,但图像分类的准确率仅仅只达到10.3%,主要是局部定位不准和人工设计的特征表达能力不强。因此POOF [8],Fisher-encoded SIFT [9],KDES [10]等新的特征描述子被提出,分类准确度提高到50%~62%左右。同时也有针对局部区域的算法研究,如尝试使用模板匹配的方法来减少滑动窗口的计算代价。这一阶段的研究不仅受限于局部定位以及人工特征的表达能力,而且严重依赖于人工标注信息。昂贵的标注成本和弱泛化能力限制了基于人工特征的算法在细粒度图像分类中的实际应用。

近年来,卷积神经网络的提出促进了图像分类领域的快速进步,深度神经网络可以提取图像中的高层语义特征以弥补人工设计在特征表达能力上的不足,其研究可以分为基于强监督学习的算法和基于弱监督学习的方法。

基于强监督信息的图像分类包括几个代表性模型:PartR-CNN [11]、Posenormalized CNN [12]、MASK-CNN [13]、HSnet [14]等。Zhang 等人[11]提出的Part R-CNN 模型利用R-CNN 算法进行对象与局部区域的检测, 然后利用局部特征训练分类器, 在CUB200-2011 数据集上获得73.89%的准确度。

Branson 等人[12]提出姿态归一化CNN 算法,增加局部图像的姿态对齐操作来解决类内方差大的问题。



相关标签