基于属性增强的对偶图实体对齐算法

发布日期:2023年5月31日
基于属性增强的对偶图实体对齐算法 基于属性增强的对偶图实体对齐算法

本内容试读结束

下载后可阅读完整内容,立即下载

本文提出结合属性信息的对偶图实体对齐算法针对基于关系感知的双对偶关系图算法中没有考虑到的属性信息进行优化,对属性结构嵌入向量使用图卷积神经网络算法对邻居节点抽取信息,并使用对偶关系图和注意力机制抽取实体对中的关系信息,最后通过结合实体对的关系信息和属性信息的相似度,判断是否为同一实体。针对原算法中识别效率不高的异构知识图谱实体对提升效果明显。在数据集DBP15K的三个跨语言数据集ZH-EN,JA-EN,FR-EN上实验,实验结果验证了对偶注意力以及属性信息对实体对齐方法的有效性。

实体对齐是指对于异构数据源知识图谱中的多种实体,找到物理世界中的同一实体指代对象。随着信息技术的高速发展,网络资源也越来越多,知识图谱中的实体可以从网络百科页面抽取出实体,并对不同来源的实体进行对齐,构建高质量的异构知识图谱。实体对齐就是解决如何从各个来源的数据中找到同一实体,并对进行知识融合的答案。

传统的实体对齐主要是针对句法和实体结构采用相似度对齐的方法[1],利用实体之间的标签或者字符距离映射到同一空间进行相似度对比。

Bhamidipaty 等研究人员通过人工标注的方法来标记不方便对齐的实体[2]。Laccoste 等提出了SiGMa 方法,该方法的本质是使用了贪心算法的思想,通过对实体属性和机构化信息进行局部搜索来完成实体对齐的任务[3]。Scharffe 等学者通过匹配模糊实体字符串,对单词的关系使用分类来进行实体对齐[4]。Bizer 等人通过使用规范的实体语法定义来进行对齐任务[5]。这类方法的缺点在于需要根据实体对齐任务有针对性地使用不同的相似度函数, 因此会耗费大量的人力资源, 同时极大地增加工作量。

随着知识图谱嵌入方法的快速发展,越来越多的研究人员开始使用知识图谱嵌入向量来完成实体对齐任务。这类方法主要思路是将知识图谱中实体和关系嵌入到同一个低维度的向量空间,并在该空间中通过向量来计算相似度系数[6] [7] [8]。

翻译距离模型TransE首先被提出用于知识图谱的嵌入表达任务中, 其表达方式是将每一个知识图谱三元组都表达成头实体向量和关系向量向尾实体向量的映射,但是该模型难以处理各种错综复杂的关系映射。于是,研究人员陆续提出一系列的翻译距离模型来进行改进[7]。

IEAJKE 模型则是利用共同嵌入的方式来进行对齐后再用迭代训练优化模型, 其目的在于增强模型的实体对齐效果[8]。Guan 等学者提出了SEEA 模型,该模型使用自学习的方式来进行实体对齐[9]。Sun 和其他学者建立模型利用迭代的方式进行实体对齐,把实体对齐任务变成分类任务进行求解[10]。Sun 等人为了对多种特征进行利用, 提出了一种实体对齐模型JAPE, 该模型从知识图谱的结构嵌入方式和属性嵌入方式这两个两方面来学习实体特征,进一步优化实体对齐的准确率[11]。AttrE 模型也是以知识图谱嵌入向量为基础,提出了一种融合实体结构信息与属性信息的方法[12]。He 等学者使用属性三元组来实现实体对齐与属性对齐的信息交互, 从而产生大量优质对齐实体对[13]。

这说明实体的属性信息包含了很多未被



相关标签