基于图神经网络的行人重识别方法

发布日期:2021年4月23日
基于图神经网络的行人重识别方法 基于图神经网络的行人重识别方法

本内容试读结束

下载后可阅读完整内容,立即下载

基于深度学习的行人重识别方法面临的挑战在于如何解决由于行人姿态多变、背景混杂、摄像头视角差异大和部分遮挡等情况引起的行人不对齐的问题。如何提取细粒度的、具有强判别性的特征成为解决问题的关键,因此本文提出了一种新型的基于图神经网络的行人重识别方法,其中包括:1) 结合人体语义解析结果提取细粒度局部特征,构建部位关系图,并通过图神经网络学习到细粒度的图表示。2) 通过图度量学习方法联合优化学习网络,学习强判别性的特征表示。本文提出的方法在主流评估数据集上与行人重识别前沿方法进行实验比较,结果表明了方法的有效性。

行人重识别(Person Re-Identification, Person Re-ID),是指在跨摄像头的情况下,在多张行人图像中找出匹配目标人物的图像[1],广泛应用于安防系统和智能商业等领域。行人重识别实现思路为计算查询图像与图库中所有图像的相似度,根据相似度从大到小排列得到重识别结果[2]。目前,行人重识别亟需解决的问题有:行人姿态多变、背景变化大、拍摄角度差异大、存在局部遮挡等。解决上述难题的关键在于特征提取和相似性度量。

传统行人重识别任务研究主要集中在人工设计特征提取器,比如文献[3]提出的尺度不变特征变换(Scale-Invariant Feature Transform, SIFT),文献[4]提出的局部二值模式(Local Binary Patterns, LBP)以及文献[5]提出的局部最大特征值(Local Maximal Occurrence, LOMO)。但这些方法提取到的特征描述能力有限, 难以应用于复杂情况下大数据量的行人重识别任务。随着深度学习的兴起,卷积神经网络(Convolution Neural Network, CNN)凭借出色的特征提取能力,取代了传统的人工特征提取器。研究者利用卷积神经网络提取行人整图图像的全局特征,并通过不同的局部划分策略,如图像切块[6]、通过姿态语义信息分块[7]通过注意力机制分块[8]、和通过人体语义解析信息分块[9]等,进行局部特征提取,最后将全局特征和局部特征拼接得到行人的特征表示,并通过计算行人特征表示之间的欧式距离作为行人图像的相似度。

基于深度卷积网络的局部特征提取方法虽然可以提取到有判别性的特征,在行人重识别任务上取得了不错的效果,但仍存在两个问题导致局部特征的判别性被削弱。第一,由于局部划分的粒度比较大, 获取到的局部区域包含行人信息和背景噪声信息。

比如PCB [6]使用垂直方向均匀切块的方法, 每个局部块都包含了背景噪声信息。SpindleNet [7]根据语义将人体姿态中身体部位的关节点分成五组,对应身体的五个部位,将每组关节点在行人图像上围起来的区域作为局部特征提取的区域。这种方式提取到的局部图像同样也包含了背景噪声信息。第二,忽视了提取到的局部特征之间的关联关系。文献[6] [7] [8] [9]等局部特征提取方法,直接将提取到的局部特征拼接,然后计算拼接后的局部特征之间的相似度,这种方式导致了模型在辨别两个穿着相似的行人时,由于缺少了额外的位置辅助信息,从而很难进行精确匹配。

针对上述问题,本文提出了一种基于人体语义解析和图神经网络的行人重识别模型。本文的主要贡



相关标签