基于对抗生成网络的命名实体识别

发布日期:2020年2月14日
基于对抗生成网络的命名实体识别 基于对抗生成网络的命名实体识别

本内容试读结束

下载后可阅读完整内容,立即下载

随着时间的流逝,互联网技术的迅速发展,如何从大量的文本数据中获取对我们有用的信息成为了一种新的挑战。命名实体识别是信息抽取和信息检索中一项重要的任务,其目的是识别出文本中表示命名实体的成分,并对其进行分类。它在垃圾邮件过滤,舆论分析和邮件分类等许多领域中广泛使用并发挥重要作用。考虑到采用对抗生成网络的形式能够更好地学习到样本数据的特征分布和采用变分自动编码器能够更好地接近真实样本的优点,本文通过对抗网络的形式,将两种现阶段具有各自特点的先进模型进行了结合,综合设计了一种基于对抗生成网络的命名实体识别算法模型用以提高特征提取的准确有效性。

互联网的出现极大地推动了人们之间的交流,以互联网为代表的信息技术的飞速发展更是极大地推动了整个社会的发展。

随着信息产业的不断发展和互联网的飞速进步, 各种移动设备层出不穷, 相应地, 每天都会生成大量不同类型的数据。从海量数据中提取有价值的信息已成为新的挑战。作为NLP 的经典应用场景之一,命名实体识别提供了一种方便快捷的方法来为用户获取有用的信息。

作为自然语言处理中非常基本但却十分重要的任务[1]之一。命名实体识别同时也是许多自然语言处理任务中的重要基础工具(例如,提取信息,回答问题,解析和机器翻译)。命名实体的检测是信息提取中的一个子任务,它的目的是将文本中的命名实体本地化和分类为预定义的类别,例如时间表达,数量, 货币价值,百分比等。检测命名实体的准确性决定了下游任务的有效性,这是NLP 的一个非常重要的基本问题。实体边界识别和确定实体类别是命名实体识别过程的两个方面。

现如今命名实体识别仍然存在很多的问题,影响着信息检索领域的准确性。存在此类问题的原因主要有:命名实体识别只是在有限的文本类型和实体类别中取得了效果;与其他信息检索领域相比,实体命名评测预料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性很差。

本文在详细地了解与深入地研究了命名实体石碑几个具体过程的基础上,重点研究并提出了一种基于对抗生成网络的命名实体识别的算法模型,结合了当前两个先进模型的各自特点,致力于提高命名实体识别在检索领域的准确性。

2. 相关研究 作为自然语言处理中的最重要也是最经典的研究问题之一,命名实体识别的发展大致经过了三个阶段:(1) 早期的基于词典和规则的方法,(2) 中期的基于传统的机器学习方法,(3) 深度学习的出现,有关命名实体识别的研究进展的大概趋势大致如图1 所示[2]。



相关标签