基于指针标注的中文医学文本实体关系抽取研究

发布日期:2022年1月26日
基于指针标注的中文医学文本实体关系抽取研究 基于指针标注的中文医学文本实体关系抽取研究

本内容试读结束

下载后可阅读完整内容,立即下载

随着医学领域科学技术的不断发展,产生了大量的医学文本数据,如何从海量的非结构化数据中获取有效的信息成为医学和自然语言处理的研究热点。作为信息抽取的关键一环,实体关系抽取可以获取自然语言句子中实体对及其之间的语义关系。当前中文医学文本的实体关系抽取方法存在词组信息缺失和关系重叠等问题,基于此,本文提出了一个Flat-Lattice-指针标注联合抽取模型。利用相对位置对词组信息进行编码,增强实体边界,并通过指针标注框架,将关系作为一种主实体到客实体的映射函数,解决了关系重叠的问题。在中文医学文本数据集上与多个基准模型进行对比,证明了该模型在中文医学文本实体关系抽取上的有效性,其准确率、召回率和F1值均高于基准模型。

随着医学研究的不断发展,各种医学文献和医学文本等医学数据的数量不断增加。利用这些医学文本数据,研究人员和医护人员可以从中发现、分享研究工作中遇到的新问题、新方法,并获取到多样的医学信息。然而,由于医学文本的存储方式往往是非结构化的,并且这些非结构化的文本存储量大,形式比较复杂。

因此, 从海量的数据中自动、便捷的获取到有价值数据的信息抽取(Information Extraction, IE)技术应运而生。而实体关系抽取(Entity Relation Extraction)作为信息抽取中的关键一步,近年来也受到学术界和工业界的广泛关注。实体关系抽取的目的是抽取自然语言句子中实体对及其之间的语义关系。通过实体关系抽取,可以检测和表征医学实体之间的语义关系,为医学知识图谱和知识库,以及下游任务如医学问答系统等提供支持。

常规的医学实体关系抽取采用流水线的方式,先进行实体识别抽取出实体对,然后对候选实体对之间的关系进行分类。然而,实体识别和关系分类两个子任务之间往往是相互依赖的。由于实体识别与关系分类两个子任务之间分离,忽略了两个子任务之间的交互性与相关性,导致出现级联错误[1]。

在过去的几年中,人们开始建立联合抽取模型来提取实体关系。最近的研究表明,联合学习方法可以有效地整合实体和关系的信息,从而在两个子任务中取得更好的表现[2]。Miwa 等人[3]提出一种端对端模型来联合表示实体和关系, 其中实体识别和关系抽取两个子任务共享LSTM 编码层序列参数的思想, 虽然考虑了两个子任务间的交互、缓解了错误传播问题,但模型学习过程仍然类似流水线方法,不属于真正意义上的联合抽取。

Katiyar 等人[4]在BILSTM 序列标注方法的基础上引入注意力机制, 使用多层双向LSTM 将实体识别子任务建模成序列标注任务,结合序列标注结果和共享编码层表示进行实体关系抽取, 模型可以拓展各种预定义的关系类型, 是真正意义上第一个基于神经网络的关系联合抽取模型。

Zheng等人[5]提出基于新标注策略的实体关系抽取方法,将联合提取任务转化成端到端的序列标注问题而无需分别识别实体和关系,解决了流水线方法中实体冗余问题。但医学文本实体关系抽取中,存在如表1 所示的实体对重叠(Entity Pair Overlap, EPO)和单实体重叠(Single Entity Overlap, SEO)的关系重叠问题。

无论



相关标签