行人重识别系统用来找寻行人,有着举足轻重的作用,而且还可以利用语义快速从库中查找出最相似的人。这种应用基于图像和文本的不同模型结构,配上合适的损失函数,将模型收敛。现基于多模态学习,可以使用语义进行图像的搜寻,对于数据量极大的监控系统而言,这无疑能帮助更高效的找寻目标。在文本分类的模型中,深度学习模型常出现在人们视野中,但是由于模型深度等原因,深度学习框架往往时间复杂度比较高,而FastText模型是基于嵌入的模型,没有复杂和深度的框架,但是却能在保证准确性的同时大幅提高模型训练的速率,使行人查找搜寻任务可以更快被完成,推进相关行业发展。因此,本文将FastText模型应用于多模态行人重拾别系统研究时,显著提高了训练的速度,将多模态行人重识别系统推向了更好的应用层面。
现如今,城市里的很多公共场所都配有监控摄像头,甚至每秒钟都能产生成千上万的视频数据,利用这些数量庞大的数据去搜寻可能的犯罪嫌疑人,现阶段这项工作还是利用人工居多,并且可能需要消耗数十天甚至数月的时间来完成搜寻工作。因此,自动搜寻行人的方法是我们非常迫切需要的。使用不限格式的文本描述在庞大的数据集中搜寻行人图片在计算机视觉领域是一个非常具有挑战性的领域。我们利用表征模型将图像和文本投影到相同的表征空间之中,再利用损失函数计算它们的相似性,得出损失,利用反向传播收敛模型。经过训练,得出的最优模型。模型最终目的是为了输入不限格式的文本描述,在图像数据集中搜寻相关性最高的行人图片。
图像和文本在自身的模态内都包含有丰富的语义信息,为了能够用同一个模型来挖掘对比信息,匹配图像–文本对是我们面临的挑战。基于文本的行人搜寻目的是根据所给出的文本描述的句子来搜寻目标人物的图片。这个内容的要求就是将两个模态的内容使用强表征联系起来。强鲁棒性的表征是将图像和文本投影到某同一个向量空间而形成,再利用特定的损失函数计算出损失进行反向传播来训练模型。
图像的特征提取网络包含有:CNN、VGG16、Yolo3、ResNet、ViT 等网络模型,文本的特征提取包括:CNN、DPCNN、VDCNN、RNN、LSTM、BiLSTM、GRU、BiGRU、Bert 等网络模型,现阶段大多数使用的损失函数包括有:CMPM、RankingLoss 等等。同时为了使模态内表征更强,在图像方面特征增强的方法包括:CAM、PAM、Max Gated block、CIA Module、SIA Module 等等,在文本数据增强方面的方法包括:EDA、回译等方法,在图像数据增强方面,包含一些基础的数据增强的方法包括:随机裁剪、随机翻转等等方法,在文本嵌入方面的方法包括:Word2Vec、GloVe、Bert 等嵌入方法。
由于在找寻行人的时候,现实情况中缺少行人的图像,所以用行人图像来找人的方式不切实际;而基于自然语言描述,在行人图集中寻找最匹配的行人,是一种比较贴合实际的方式;在应用方面:找犯罪嫌疑人、视频监控或者寻人启事等事务之中,此研究内容具有很强的应用性和价值。
2. 相关工作 在使用文本描述的行人重识别方法方面,研究者们提出了许多方法。其中根据学习方式可以划分为:模态间以及模态内两种方法;其中根据图像特征划分可以分为:局部分支匹配、全局分支匹配以及混合