基于标签一致性哈希的跨模态检索算法

发布日期：2021年4月28日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

针对跨模态检索任务中，不同数据之间存在异构性以及语义鸿沟等特点，本文提出了一种新的监督哈希方法。该方法利用矩阵分解学习训练数据集在低维潜在语义空间表示，同时本文将标签信息也视为一个单独的模态，也利用矩阵分解将其映射到低维潜在语义子空间中；然后，在子空间中最大化它们之间的相关性，从而得到相应的低维潜在语义代表；之后，本文利用正交旋转矩阵学习性能更好的哈希函数得到相应的哈希码。在三个常用的数据集Wiki，MIRFlick和NUS-WIDE进行了大量的实验，并与一些常用的跨模态哈希方法进行了比较，结果证明了该算法的优越性。

随着信息科技的迅速发展，人们不仅接收到各种信息也创造出各种信息，这些信息的表现方式多样，如图片、文本、视频和音频等等。其中，以任意一个单独形式表现出来的数据被称为单模态数据，多个单模态数据组合的方式表现出来的数据被称为多模态数据。

如今，人们接触到的信息往往是多模态数据，例如，人们在微博上发布消息时，不仅可以上传图片或者视频，也可以加上相应的文章描述。在实际的生活和应用中，人们往往需要通过一种模态的数据去检索另外一种模态数据，例如利用图像去检索相对应的文本，这种检索方式被称为跨模态检索。然而不同模态对数据的表达不同会导致异构鸿沟，同时不同模态数据在语义描述上存在差异会产生语义鸿沟，这些是跨模态检索的难点。如何在海量高维数据中快速准确搜索到需要的内容成为一个急需解决的问题。

为了更好的解决海量数据信息检索问题，研究学者提出最近邻搜索问题，最近邻检索的核心思想是，给定一个待检测样本，返回数据库中与待检测样本距离最为接近的样本信息作为检索结果。实现最近邻检索的是线性查找，即计算待检测样本与数据集中所有样本之间的距离，然后返回满足检索样本信息作为检测结果。该方法在数据量不大的时候，具有很强的实用性，可以很高效的在数据集汇总找到符合要求的样本信息。然而面对海量的数据时，计算量迅速增加，对计算机的计算能力要求越来越高，因此该方法很难得到广泛的应用。为了有效降低计算量，研究学者提出了近似最近邻域检索方法，并且由于其高效性，在实际应用中获得广泛的应用。

在近似最近邻检索算法中，其中最有效的方法之一是哈希算法。哈希算法通过机器学习算法或随机的方法把数据映射到相应的潜在语义空间，再通过哈希函数将原始数据表示成二进制编码，利用二进制编码的位运算来进行检索，不仅可以降低存储开销，同时降低了计算复杂度，提高检索效率。因此，基于哈希的跨模态检索受到越来越多研究人员的关注，逐渐成为一个研究热点。

2. 相关工作跨模态哈希检索是在建立两个模态语义关联的过程中学习哈希码，并将哈希检索的优点运用到跨模态检索问题中，根据是否利用数据本身的标签信息，跨模态哈希方法可以分为两种类型：无监督跨模态哈希和有监督跨模态哈希。

无监督跨模态哈希算法是通过多模态数据的模态内和模态间的关系来学习哈希码。

一般的学习过程