基于深度学习的古汉语命名实体识别研究

发布日期:2020年7月24日
基于深度学习的古汉语命名实体识别研究 基于深度学习的古汉语命名实体识别研究

本内容试读结束

下载后可阅读完整内容,立即下载

命名实体识别是自然语言处理的基础任务之一。而目前中文命名实体识别研究大多是面向现代汉语的,针对古汉语的这方面研究工作涉及较少。因此,本文以《战国策》为例,根据古汉语独特的子语言特征,

命名实体识别[1] (Named Entity Recognition, NER)是自然语言处理(Natural Language Processing, NLP)基础性工作之一,它可以准确地从文本中识别出人名、机构名、地名、时间等信息,为信息检索、机器翻译、舆情分析等下游自然语言处理任务提供重要的特征信息。过去,命名实体识别任务多采用基于规则的方法、基于统计的方法和基于规则和统计相结合的方法[2]。

近年来,深度神经网络在自然语言处理领域广泛地受到关注,与上述方法相比,基于深度神经网络的方法具有更强的泛化能力、对人工特征依赖较少的优点。因此,面向现代汉语和英语等大语种,研究者已提出了许多基于深度神经网络的命名实体识别模型[3]-[18],但针对古汉语在这方面的研究才刚刚起步。

鉴于此, 本文以《战国策》为例, 根据古汉语独特的子语言特征, 利用网格长短期记忆(Lattice LSTM)神经网络构建命名实体识别模型以解决古汉语中的信息提取问题。该方法将传统的LSTM 单元改进为网格LSTM,在字模型的基础之上显性利用词与词序信息,从而避免了分词错误传递的问题。实验结果表明, Lattice LSTM 能够学会从语境中自动找到所有与词典匹配的词汇, 以取得较好的命名实体识别性能。

在本研究构建的数据集上F1 值达到92.16%。

2. 模型 在英文领域,第一个采用神经网络进行命名实体识别的是Hammerton 等人,由于LSTM 良好的序列建模能力,LSTM-CRF [19]模型成为命名实体识别的基础架构之一,很多方法都是以LSTM-CRF 为主体框架,在此之上融入各种相关特征。本文将LSTM-CRF 作为主要网络结构,并且在该模型对一系列输入字符进行编码的同时将所有与词典匹配的词汇网格结构融入模型中。

一般将输入序列表示为12, , , nsc cc=。其中, jc 代表第j 个字符。本文中应用(), t i k 表示索引j,代表第i 个词的第k 个字符。比如“医扁鹊”,索引从1 开始,那么()1,11t= (医),()2,12t=(扁)。本研究运用BIO 标注策略进行字粒度和词粒度的命名实体识别标注,古汉语命名实体识别的字序列和标记序列举例说明如表1 所示。

Table 1. Examples of character sequence and label sequence in ancient Chinese named entity recognition 表1. 古汉语命名实体识别的字序列和标记序列举例 字 舜 虽 贤 不 遇 尧 不 得 为 天 子 标记 B-PER O O O O B-PER O O O B-POS I-POS 注:“O”是实体外部标记,“B”是实体开始标记,“I”是实体内部标记,“PER”表示人名,“POS”表示官职。



相关标签