关系提取可以获得文本中的关键信息。实体关系提取是在非结构化文本识别出实体并提取出实体对之间关系的方法。针对传统的关系提取借助外部NLP工具和局部分类等问题,端到端的实体关系提取模型可以减
随着互联网上非结构化文本数据越来越多,关系提取对文本数据的提取和分析也扮演着愈加重要的作用。关系提取短文本中的信息以三元组的形式<实体,关系,实体>表示,获取的三元组不仅体现出实体之间的关系,还能广泛的运用到知识图谱、智能搜索引擎、自动问答系统等领域[1] [2] [3] [4]。
早期的关系提取[5] [6] [7] [8]不仅需要人工大量的选定特征,并且因为中文句子的词法、句法、语法等方面的复杂性,很难适应大规模的中文关系提取。随着深度学习的兴起,神经网络模型可以自动提取文本中的特征,可以大量减少人工提取特征的工作,也能更好的适应大规模中文数据的关系提取工作, 这也是当前中文短文本中的关系提取的主流方法[9]。但是这种管道模型只是对实体对之间的关系进行提取,忽略了前置步骤的实体识别,这样不仅忽略了文本中的实体前置信息,还可能造成管道方法中的错误传播,同时我们还要对需要预测关系的实体做出标记,这也会造成巨大的人工成本。
除了把实体和关系抽取看作两个分开的任务的管道模型,还有整合实体识别和关系抽取的联合模型[10] [11] [12]。
针对文本中可能会包含多个实体对以及每个实体标识多个关系的问题, 我们设计端到端的模型可以同时提取同一短文本中的实体和关系,其中实体可能参与到多个关系中。
为此我们设计一种端到端的实体关系提取模型,可以联合性的提取出实体和实体之间的关系。这种实体关系提取模型避免了依赖外部自然语言处理工具和手工特征造成的错误传播,同时整合整个句子的语法信息来促进全局的特征信息学习。为了针对端到端的关系提取,我们建立了参数共享的神经模型, 通过BiLSTM 提取文本特征,以更好地学习上下文语义表示。由于中文文本的复杂性,一个句子中可能存在多个实体,所以会存在一个句子中含有多个实体关系对,特定实体与多个实体产生关系,为了解决这样的问题,本文采用同时计算对应实体和关系类型的得分,进而得到特定实体与其对应实体和关系类型的概率。如图1 所示,是一个句子的输入与输出,“钱钟书和杨绛结婚之后诞下了爱女钱瑗”这个句子包含人名实体“钱钟书”、“杨绛”和“钱瑗”,用实体的最后一个字符表示该实体的位置,分别计算实体与对应实体及关系的概率。实体对最大概率的关系就是提取出来的三元组关系对,最后提取出实体关系对为<钱钟书,夫妻,杨绛>,<钱钟书,父母,钱瑗>和<杨绛,父母,杨绛>。
本文提出了一种端到端的关系提取模型,减少关系提取手工特征和手工标注的工作量,避免依赖外部工具造成的错误传播,整合句子中的依赖信息使实体识别和关系提取之间相互促进。由于中文文本中词向量存在稀疏性等问题,所以本文采用字向量输入。同时本文解决一个句子中的多实体关系提取问题以及一个实体具有多个实体关系对。本文在来自互联网上的中文短文本数据集上对该模型进行了实验, 实验结果证明了该方法在多实体关系提取上达到了很好的效果。