行人重识别的目的是通过将人物的探测图像与图像库中的所有图像进行比较,从而在图像库中找到感兴趣的人。大多数的行人重识别算法都是在一些小的带标签的数据集上进行监督训练,直接将这些训练好的模型部署到真实世界的大型摄像机网络中可能会由于拟合不足而导致性能低下。因此,有必要在没有明确监督的情况下,自主地对模型进行训练。因此本文提出了一个多维注意力网络和部件关注网络联合学习的无监督行人重识别方法。首先多维注意力网络对行人图像复杂的高阶统计信息进行建模和利用,其次使用部件关注网络关注不同的部件,最后是一系列的损失函数来引导部件关注网络学习未标记数据集上的部件特征。在Market-1501和DukeMTMC-reID两个数据集上的实验结果表明,本文提出的方法有效并取得了显著的效果。
行人重识别(person re-identification, Re-ID)由于在视频监控、人机交互领域的重要应用,近年来受到了越来越多的关注。在视频监控中,由于相机分辨率和拍摄角度的缘故,通常无法得到高质量的人脸图片,此时人脸识别[1] [2] [3]失效。行人重识别就成了一个非常重要的替代技术,它广泛被认为是一个图像检索的子任务,给定目标人物的图像,行人重识别的目标是找到不同相机或同一相机在不同时间捕捉到的同一人的其他图像。
最近几年,越来越多的研究者尝试将行人重识别的研究与深度学习[4] [5] [6]结合在一起,并取得了很好的效果。现有的行人重识别的工作大部分聚焦于监督学习[7]-[14],它们假设可以为每一对相机视图提供大量手动标记的匹配对,来学习该相机相对优化的特征表示或匹配度量函数。然而,这种规模的手动标签不仅在现实世界中收集起来非常困难,而且在许多情况下是不可行。例如可能没有足够的训练人员在每对相机视图中重新出现。这限制了它在真实应用场景中的扩展性和可用性。
针对上述问题, 一种通用的解决方案是设计无监督模型[15]-[26]。
虽然一些无监督行人重识别算法已经被提出,但是与监督学习方法相比,它们的识别效果较弱。一个主要的原因是,如果没有跨视图的标记数据,则无监督方法由于不同的视角、背景和照明而缺乏跨视图下相同身份视觉特征变化所需要的必要知识。对此,我们提出了一个多维注意力模块来解决行人图片中的视角、背景等的干扰,该模块可以去除图片中杂乱无章的背景噪声,从而提取出具有鲁棒性的嵌入特征。
此外,在行人重识别中一些基于部件生成的方法[12] [14]被提出来并超过了基于全局特征的方法。
例如,Rahul 等人[12]提出了基于图像切块的方法,将图像块按顺序送到一个LSTM 网络中,最后进行