一种基于树模型的关联实体解析方法

发布日期:2021年10月29日
一种基于树模型的关联实体解析方法 一种基于树模型的关联实体解析方法

本内容试读结束

下载后可阅读完整内容,立即下载

在大数据时代,Web数据呈现多样性和关联性,在实体解析(Entity Resolution)中体现为解析的数据集往往包含多个实体集,实体集之间具有关联关系。这种关系导致解析一个实体集的结果可以使另一个实体集的解析受益,这种具有关联关系的实体解析称为关联实体解析(Related Entity Resolution)。本文针对一对多类型关联实体的实体解析问题提出了关联树模型,并引申出相似节点、相似树、相似性传递等概念。我们提出了一种基于树的一对多关联实体解析方法。初始时依据关联实体的关联关系构建关联树;将本节点的属性相似度和关联子节点的部分属性相似度结合起来判断节点是否匹配;基于深度优先原则遍历关联树的每一个节点,依据节点的实体解析结果筛选出满足相似传递性的部分子节点,在遍历完叶子节点的过程中,生成部分相似子树,再对根节点的子节点集中节点进行相似匹配,寻找其他相似子树。本文提出一种相似树索引来表示关联树的匹配结果。用房地产大数据通过实验验证文中提出的关联树搜索算法比已有的关联实体识别算法在一对多关联实体上效率更高。

实体解析(Entity Resolution)是数据清洗的重要部分, 对于数据挖掘和数据集成也至关重要[1] [2] [3] [4] [5]。在实践中,数据集成和数据挖掘常常涉及多个数据源,不同的数据提供方对同一个事物即实体(Entity)可能会有不同的描述。由于拼写错误、缩写方式不同、描述格式不同、属性值缺失、实体的某些属性值随着时间推移发生变化(比如年龄、居住地点、工作单位)等,描述同一实体的不同记录存在差异[6]。实体解析是从一个或多个数据源中匹配描述同一现实世界实体记录的过程。为了实现高质量的数据集成和数据挖掘,需要对数据进行实体解析。凭借数十年的研究,传统的实体解析拥有高效且有效的算法解决方案[7] [8] [9] [10]。但传统的实体解析仅针对单一类型的实体解析问题,匹配的记录之间是独立的。

大数据时代,数据呈现多样性和关联性,在实体解析中体现为数据集包含多个实体集,实体集之间具有关联关系,我们称为关联数据集。这种对关联数据集进行的实体解析,即关联实体解析(Relational Entity Resolution)。本文中,我们专注于对一对多关联实体进行实体解析。在关联实体解析中,关联数据集由多个实体集和它们之间的关系组成。在这种数据集中,某些实体的解析可能会影响到其他实体的解析。

现有的关联实体解析[11] [12] [13] [14] [15] [16]中, 很少有人专注于一对多关联实体的实体解析问题。

比如Dong 等人[14]通过关联关系将可能匹配的记录作为节点,构建依赖图来进行关联实体解析;Bhattacharya 等人[11]利用引文数据中的共同作者关系,进行基于关系的聚类,来实现关联实体解析,这



相关标签