关系抽取是自动构建知识图谱的关键技术之一,其根本目标是抽取实体间的语义关联关系。针对非结构化文本实体关系抽取方法中存在的上下文环境信息难以准确表征、句子间的实体关系特征未被充分利用等问题,本文提出了一种新的基于神经网络和注意力机制相结合的关系抽取模型PCNN-ATT-BiLSTM。该模型采用“RNN + CNN”网络框架,其中的RNN利用双向长短期记忆神经网络(Bi-LSTM)来捕获文本语句的上下文信息和浅层语义特征,利用分段卷积神经网络(PCNN)捕获文本语句的局部短语特征,并结合注意力机制捕获文本语句的关键信息进行关系预测。该模型在公开数据集SemEval-2010 Task8上取得了82.92%的F1值,实验结果表明,该方法在非结构化文本的实体关系抽取方面表现出了较好的性能,为实体关系的自动获取提供了新的方法支持。
在大数据时代背景下,随着互联网技术的迅猛发展,网络数据信息呈现爆炸式增长的态势,从海量文本中自动提取有价值信息是自然语言研究领域的研究热点。信息抽取(Information Extraction)是自然语言处理(Natural Language Processing, NLP)领域一个重要的研究方向,关系抽取(Relation Extracion, RE)是其中的重要任务之一。关系抽取是为了识别出文本实体中的目标关系[1],实体关系抽取解决了原始文本中目标实体之间的关系分类问题,有效的关系抽取技术可以提升构建知识图谱的质量和效率。经过几十年的发展,实体关系提取的理论和技术,从早期的人工设计和规则提取模型到后期的基于机器学习和深度学习的模型,已经得到长足发展。随着各类模型的准确性和召回率的不断提高,模型提取关系的适应性比以前更强。
关系抽取是自动构建大规模知识图谱的关键。关系抽取就是识别出实体和它们之间的关系并提取出来,并将其加入到知识图谱中,最终构造出知识图谱[2]。目前,在实体关系抽取任务中主流的方法是有监督学习的关系抽取,特别是随着深度神经网络学习模型的深入应用,关系抽取效果显著提升。对于有监督的实体关系抽取方法[3], 国内外目前主要研究集中在如何利用卷积神经网络[4] (Convolutional Neural Networks, CNN)、循环卷积神经网络[5] (Recurrent Neural Network, RNN)和长短时记忆网络[6] (Long Short-Term Memory, LSTM)等进行实体关系抽取。
CNN 在实体关系抽取任务中的应用很广泛。最初仅在图像的分类和识别[7]中用过CNN,后来慢慢应用于文本分类相关任务中。2014 年,Zeng [8]等人提出将CNN 方法应用于实体关系抽取任务,以预训练的词向量为基础, 通过CNN 网络融合位置信息提取句子级别特征, 将句子特征和语法特征结合进行关系分类,采用单个最大池化操作来确定语句中的最重要的特征,但是单个最大池化操作捕获不到两个实体之间的结构信息。因此,2015 年,Zeng [9]等人在2014 年的基础上提出了用于关系提取任务的分段卷积神经网络模型,通过使用多实例学习范式,利用该神经网络模型构建了一个基于远程监控数据的关系提取器。采用卷积神经网络模型处理时,没有将文本距离较大的信息等获取到。因此,RNN 及其改进模