TopN成对相似度迁移的三元组跨模态检索

发布日期:2021年10月20日
TopN成对相似度迁移的三元组跨模态检索 TopN成对相似度迁移的三元组跨模态检索

本内容试读结束

下载后可阅读完整内容,立即下载

随着科技的快速发展,网络上的信息呈现出多模态共存的特点,如何存储和检索多模态信息成为当前的研究热点。其中,跨模态检索就是使用一种模态数据去检索语义相关的其它模态数据。目前大部分研究都聚焦于如何在公共子空间中使相关的样本尽可能靠近,不相关的样本尽可能分离,没有过多考虑相关样本的排序情况。因此提出一种TopN成对相似度迁移的三元组跨模态检索方法,其利用三元组损失和局部保持投影构建多模态共享的公共子空间,同时将原始空间中样本之间的高相似度关系迁移到公共子空间,以构建合理的排序约束。最后在两个经典跨模态数据集上证明了方法的有效性。

随着科技的进步和社会的发展,网络数据呈现多模态共存、多模态融合的趋势。例如,在新闻网站上用于从不同角度描述同一新闻事件的新闻图像和详细文本,其中图像和文本是不同形式的数据,但是它们共同描绘着一个同一的新闻事件,也就是说图像和文本通过一个新闻事件关联在一起。这类多模态数据呈现底层特征异构、高层语义相关等特点[1]。如何存储和检索多模态数据成为研究热点。

跨模态检索是利用一种模态数据去检索语义相关的其它模态的数据,其核心问题是如何测量不同模态数据的相似度[2]。

主流的思路是将异构的数据映射到相同的潜在子空间中, 建立异构数据之间的联系, 将异构数据转换为同构数据进行相似度测量。根据是否利用标签约束,主要分为有监督的子空间学习和无监督的子空间学习两种方法。在无监督的子空间学习中,最为经典的方法就是原理简单、使用广泛的典型关联分析(Canonical Correlation Analysis, CCA) [3]。

CCA 将成对的异构数据分别进行线性变换并投影到公共子空间中,以最大化成对数据之间的相关性为目标优化各自的线性变换矩阵。而在有监督的子空间学习中,人们充分利用标签信息,从多模态数据中学习到更优的关联关系。例如,Deng 等人[4]利用语义标签生成语义相似矩阵,并借此构建跨模态三元组学习异构数据之间的关联关系。目前大多数跨模态检索方法只聚焦于如何在公共子空间中使相关的异构数据尽可能相近,不相关的数据尽可能相离,却忽略了相关检索结果的排序情况,以至于虽然返回了相关的检索结果,但排名靠前的却不是最终匹配的结果,非常影响搜索体验。

为此,本文提出TopN (前N 项)成对相似度迁移的三元组跨模态检索方法,用于提高排名靠前检索结果的匹配准确度。本方法首先采用一种单模态三元组配合局部保持投影的方法构建异构数据之间的关联关系,然后引入成对相似度迁移方法捕获原始数据之间的高相似度关系并迁移到公共子空间中,使得公共子空间中相邻特征之间能保持原始特征的高相似度关系,以实现检索结果的高匹配度。

2. 相关概念 2.1. 三元组损失 三元组损失是一种常用的分类损失,广泛应用于人脸识别领域[5]。三元组损失需要三个输入,分别



相关标签