本文构建了一个事件抽取pipeline模型,其旨在对新闻中的信息元进行有效的抽取。在管道抽取模式下,先对文本进行存在事件类型识别,而后再将事件类型与文本一并作为输入传入模型进行事件论元角色抽取,其中事件论元角色采用类似于BERT中SQuAD等阅读理解任务上的双指针输出。两个基本模型都是利用BERT预训练模型产生的词嵌入,使用DGCNN进行编码之后池化,再连接到dense层进行分类。实验结果表明,本模型可对新闻类内容进行高效抽取。
随着当今社会互联网和自媒体的普及,网络技术的日益革新,新闻文本每天都会大量产生,互联网作为新闻传播的新媒介,存储了海量的信息。但是由于这些文本信息大都是以非结构化的方式存储在互联网中,使得其很难被处理,面对这巨大的信息财富,一个快速从中获取有价值信息的方法显得越来越重要。
新闻一般以事件的形式呈现出来, 对新闻中蕴含的事件进行抽取, 可达到快速获取主要信息的目的。
一般的顺序不敏感模型没有明确的位置标记,可能会导致在处理语法敏感的任务时由于语序或者语法结构的影响不能完全捕获自然语言的语义。因此我们采用上下文敏感的模型进行事件抽取任务。接着很多研究中使用端到端的神经网络进行训练,其性能通常较好,但由于事件抽取任务的复杂性,其通常伴随大量参数从而导致巨大的计算力使用。至此,本文提出一种简洁事件抽取模型架,基于上下文敏感模型产生的预训练词向量且具有更少的参数,输出上采用类似于在SQuAD 等阅读理解任务上的输出对中文事件进行抽取。
2. 相关研究 一般认为,事件抽取要区分为元事件抽取与主题事件抽取两种任务。元事件表示一个动作的发生或状态的变化[1],包括参与该事件的主客体,通常由动词或动名词作为触发词。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动[2],可以由多个元事件构成。本文探讨研究的范畴只限定于元事件抽取,下文统称为事件抽取。图1 描述了一个事件的构成: Figure 1. The basic constitutive elements of a “release” event 图1. “发布”事件的基本构成要素