随着大数据时代的到来,海量数据不断涌现,从中寻找有用信息,抽取对应知识的需求变得越来越强烈。针对该需求,知识图谱技术应运而生,并在实现知识互联的过程中日益发挥重要作用。信息抽取作为构建知识图谱的基础技术,实现了从大规模数据中获取结构化的命名实体及其属性或关联信息。同时,由于具有多样化的实现方法,扩充了信息抽取技术的应用领域和场景,也提升了对信息抽取技术研究的价值和必要性的认可度。本文首先以知识图谱的构建框架为背景。探讨信息抽取研究的意义;然后从MUC、ACE和ICDM三个国际测评会议的角度回顾信息抽取的发展历史;接着,基于面向限定域和开放域两个方面,介绍信息抽取的关键技术,包括实体抽取技术、关系抽取技术和属性抽取技术。
随着计算机技术和互联网的飞速发展和知识互联时代的到来,人们期寄着构建一个更加智能的、机器可理解可计算的万维网。知识图谱(Knowledge Graph)的概念逐渐出现在人们视野中。知识图谱在语义处理、开放处理等功能方面都显现出很强的能力,在智能推荐、问答和对话系统以及大数据分析和决策等应用中也体现出越来越重要的价值。知识图谱预计将在互联网知识互联的实现过程中起到中流砥柱的作用。
文献[1]给出了知识图谱的定义:知识图谱是一个用于描述物理世界中的概念及其联系的语义网络, 它包含以下三个重要的因素:1) 概念。概念可以是实体、属性,也可以是一个事实,例如“一个人有两只手”。概念通常被描述为节点;2) 关系。关系是两个概念节点之间的语义联系,例如属性关系、拥有关系等;3) 概念和关系的背景知识。因为同一个概念和关系都有许多不同的表达方式,因此需要其背景知识作为提供查询的字典或者本体对多种表现形式进行连接。
知识图谱是知识工程在现今大数据阶段的一个标志性工具。知识工程是将人工智能的原理和方法[2]用于构建大规模知识库。
知识工程创立者费根鲍姆(Feigenbaum)给出了知识工程的确切定义, 即将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务[3]。知识工程从以图灵测试为代表的前知识工程开始,经历了以知识库、框架、推理机为核心的专家系统,Web1.0、群体智能Web2.0 等发展阶段,随着2012 年知识图谱概念的提出以及Dbpedia、Freebase、YAGO 等知识库的建立,知识工程发展进入了一个新的发展阶段[4],即大数据知识工程(BigKE)。大数据知识工程实现了对数据中的语义,包括隐含语义的挖掘,使数据成为了智慧数据(Smart Data),其目标是自动或半自动地获取知识,融合碎片化知识,然后建立基于知识的系统[2],最终达到为一众应用(例如,语义搜索系统、智能推荐系统、问答和对话系统以及大数据分析与决策)提供互联网智能知识服务的目的。