实体抽取和关系分类是自然语言处理领域其他任务的基石,二者效果直接或间接影响其他任务的效果。近年来得益于预训练语言模型在自然语言处理应用的巨大成功,实体关系联合抽取发展迅速,而当下使用BERT进行预训练基于Span抽取方式的联合抽取模型在解决实体重叠等问题的同时,依旧存在面对长文本效果变差,模型泛化性较差等问题。本文提出一个基于预训练语言模型Span-BERT进行微调的联合抽取模型,以Span为单位实现实体关系的联合抽取,在抽取训练过程中引入负样本采样策略,并在Span-BERT中进行有效提取,以此来增强模型性能和鲁棒性。实验结果和消融实验表明了该方法的有效性,通过不同程度的噪音化数据集SciERC,证明了本模型具有良好的鲁棒性,同时在ADE、CoNLL2004和SciERC个基准数据集上取得了不错的结果。
在自然语处理任务中,实体抽取(命名实体识别)和关系抽取(关系分类)是知识图谱构建、语义搜索等自然语言处理任务的基石。不同于先抽取实体再关系分类的传统流水线模型,实体关系联合抽取能有效减轻流水线模型中的暴露偏差等问题,因此实体关系联合抽取模式被越来越多的学者所关注。
通常联合抽取模型如CasRel [1]通过基于序列标注的方法实现,其实现简单,准确率高,但无法解决重叠实体的问题。基于指针网络的模型[2]在保证准确率的同时能够解决重叠实体的问题,但容易遇到标签不平衡问题。基于Span 的联合抽取模型把实体认定为一个Span 片段,通过划分开始和结束位置定义抽取目标的范围,精确捕获需要抽取的信息。候选实体会被用于进行实体分类和关系分类,最终得到三元组。基于Span 的抽取方式精度更高,能更好处理实体重叠的问题。
本文提出一种基于Span 的实体关系联合抽取模型,以Span 为单位进行实体关系联合抽取,通过Span-BERT 预训练语言模型[3]进行微调。在使用Span 抽取方式解决实体重叠问题的基础任务上,改善该抽取方式对标注数据过度依赖导致的模型鲁棒性差的现象。
以Span 为单位极大的提高后续实体关系分类时选取实体边界的准确性,识别效果得到了保障。我们在模型中引入负样本采样策略,用于降低这些稀疏的负样本对模型造成的影响,进一步提高模型的鲁棒性。我们还进行噪音添加,来直观的检验模型鲁棒性的提升。
根据上面所述,本文提出的模型主要贡献如下: 1. 提出基于Span-BERT 预训练模型的实体关系联合方法。在遵循基于Span 的方法进行实体的识别和过滤,有效解决实体重叠的问题的同时取得了不错的抽取效果,以及用一个无标记的上下文表示进行关系分类。
2. 本文采取一种负样本(Negative sample)标记方法。
有效改善在面对文本长度增加时, 无效的负样本数量也会增加的问题。该方法在训练时将候选Span 中的非实体Span 和无关实体标记为负样本,同时这些负样本往往是非常稀疏的,负样本采样能够提高模型面对长文本中大量冗余的负样本时判别的精度, 降低这些负样本带来的噪声对模型影响的同时,提高了模型的效率和鲁棒性。