基于映射关系的领域词典抽取算法

发布日期:2021年4月8日
基于映射关系的领域词典抽取算法 基于映射关系的领域词典抽取算法

本内容试读结束

下载后可阅读完整内容,立即下载

领域词典是一种领域知识的表现形式,是数据规范化和数据清洗的重要参考信息。映射关系指表格中某两列间的对应关系。领域词典构建与扩充以Web表格为主要数据来源,需要对众多Web表格中的局部映射关系进行联结和扩展,但Web表格中存在异构和数据质量问题,不能单纯地依靠模式匹配等数据集成技术。本文提出了一种基于映射关系的领域词典抽取算法。首先利用带IDF权重的Jaccard最大包含度和编辑距离进行近似字符串匹配,并利用高斯混合模型实现数值离散化,从而解决了数据层面的异构性问题。然后由点互信息和函数依赖确定包含映射关系的候选表;接下来定义了候选表间的相容性和相斥性,构造出映射关系图模型,以进行候选表联结,实现了以映射关系为形式的领域词典抽取。最后,为保证领域词典的质量,加入了冲突消解过程。在实验验证阶段,本文利用房地产领域数据集,与其他从Web获取领域知识的算法进行比较,验证了本文所提出算法的有效性和可靠性。

映射关系是指数据集当中的两个或多个属性间的对应关系。作为一种语义范畴的概念,映射关系与函数依赖等数据依赖相类似,可作为一种约束条件,来检测和修复数据库中的拼写错误、空值和不一致值。与函数依赖相比,映射关系的严格性较低,容许近似映射,而且映射关系能够跨越多个关系表(关系模式),可实现更复杂的表达组合。

领域词典,是用来存储领域相关的领域词及它们之间关系的领域内专业词典,其基本组成单位是领域词对,不仅可表示为(属性,值)对,还可表示为具有隐含关系的(实体,实体)对。在领域词典中,符合同一关系的领域词对被联结成一张子表,在同一张子表中的关系是一致的,关系可作为隐含条件而省略掉。因而,领域词典与知识图谱中的垂直划分存储方案[1]相类似。垂直划分存储方案为知识图谱中的每种关系建立一张两列的表(主语,宾语),表中存放由谓语(关系)连接的主语和宾语[2] [3]。

传统上, 领域词典来源于专家或其他额外信息, 这些来源有很大的局限性, 如:以领域专家为来源, 需要大量的人工配合,难以使知识详尽化,且易受主观因素影响。而以知识库为来源,又无法做到与实际数据的特异化对应。随着爬虫等自动化网络信息采集技术的发展,网页上的表格日渐成为一大重要的数据源,这些结构化数据中蕴含大量有用信息,在构建或完善知识库、扩充现有数据库等场景中被大范围应用。因此,本文中的领域词典以大量Web 表格为数据来源。

尽管不同来源的Web 表格中可能存在着相一致的映射关系,但在大多数情况下,不同来源的Web表格中的值是难以比较的。这种不同数据源中属性取值的差异性称为数据层面的异构性,其包括标度差异性和相同实体的多重表示两大类。标度差异性指的是在不同来源的Web 表格中存在一些数值转换,比较典型的情况是:对于同一范畴的有序变量,一些Web 表格中用连续的数值来表示,而另一部分Web



相关标签