基于布尔匹配规则的实体解析方法

发布日期:2021年4月28日
基于布尔匹配规则的实体解析方法 基于布尔匹配规则的实体解析方法

本内容试读结束

下载后可阅读完整内容,立即下载

实体解析(ER)是数据集成和数据清洗的一个重要步骤。判断记录是否相似可以通过记录的属性(属性值)是否相似来判断。基于规则的实体解析方法,通过制定规则来将每个属性(属性值)的相似度都进行比较(属性匹配规则),为了减小其求解的搜索空间,属性匹配规则将每个属性都采用相同的相似度算法和阈值来进行比较,这导致实体解析的精度不高。为了提高精度,本文提出一种基于布尔匹配规则的改进的实体解析规则生成算法,与传统的基于属性匹配规则和机器学习的实体解析方法相比,改进的实体匹配规则算法精度更高。本文首先提出一种基于语法约束的布尔匹配规则。在此基础上,本文提出了一种规则合成(Rule Evolution)算法,他可以根据输入的实例验证规则,并自动合成对整个数据集有效的ER规则。在真实数据集和合成数据集上的实验结果表明,我们的方法具有很高的准确性,本文提出的规则在有效性上优于其他可解释规则(如低深度的决策树,其他基于规则的实体解析)。

实体解析[1] [2] [3] (也称为记录链接或重复记录检测)是识别代表同一真实世界实体的记录的过程。

例如,在房地产数据集中,合并两个楼盘表。可能希望合并它们所有的记录。在这种情况下,同一个楼盘可能由多个记录表示,因此必须标识并组合这些匹配的记录。

当今主流的实体解析中基于机器学习(ML)的解决方案通常是首选,当前大多数解决方案是Fellegi-Sunter 模型的变体[4],其中实体解析被视为分类问题。这些方法包括基于SVM 的方法[5],基于决策树的方法[6],基于聚类的技术[7]和基于马尔可夫逻辑的模型[8]。但是,使用ML 方法的系统(如支持向量机[5]或模糊匹配[4])不支持可解释性, 因为它们的模型由权重和功能参数组成, 即使对于专业人员也很难解释。

随着Amazon Mechanical Turk 社区中众包工作者的涌现,最近的研究重点已转移到利用人类智慧来帮助验证不确定的记录对。由于众包平台的普及,人们一直在努力利用众包工作者解决实体匹配问题[9] [10]。

最近基于规则的实体解析应用通常希望使用声明性EM 规则。

这样的规则在数据库社区中也很流行, 因为它们为提高执行时的性能提供了巨大的机会,例如[11]中研究的那些规则。

但是, 这些方法通常假设ER 规则是由领域专家给出的[12], 通过假设给定的DNFEMrule 结构来发现相似性函数及其关联的阈值。

然而,由于手写实体解析规则非常耗时和容易出错,本文研究是能否能通过学习正反实例自动生成可解释的ER 规则。

布尔匹配规则通常在基于规则的系统中设计和实现。布尔匹配规则对在比较步骤中生成的比较属性的相似性值给出true 或false (是或否)决定。因为比较组件通常是ER 过程中计算上最昂贵的组件,所以



相关标签