针对中文命名实体识别过程中由于中、英文数字混合导致的文本特征学习不彻底、实体识别边界模糊、对不断涌现新的实体识别不准确等问题,本文提出了一种关于字典的实体识别方法。首先,通过字典进行数据预处理,以减少中、英文和数字符号混合对实体识别的影响,再使用BERT模型获取文本特征,将得到的特征作为双向长短时记忆网络的输入进行训练,然后,利用随机条件场进行解码,得到标注序列,最终获取得到相应实体。该模型在人民日报语料、MSRA语料和计算机领域语料上分别取得了95.10%、95.09%和99.45%的F1值,实验结果表明,本文方法能够有效提升命名实体识别效果。
命名实体识别(Named Entity Recognition, NER)是自然语言处理(Natural Language Processing, NLP)中的一项基础任务,主要目的是从非结构化文本中识别出固有实体。NER 是文本分类、情感分析、自动摘要和机器翻译等功能实现的基础,随着计算机技术的发展和大数据时代的来临,越来越多的研究者投入到从海量的文本信息中提取有用的实体知识,并挖掘出实体之间存在的潜在价值的问题中来。
针对命名实体识别中由于中英文数字混合导致的文本特征学习不彻底、实体识别边界模糊、对不断涌现新的实体识别不准确等问题,本文提出了一种预处理方法,该方法将中、英文和数字混合通过一种“字典”进行编码,将待识别的文本通过该字典转换为全中文文本。这种预处理方法增加了字典的冗余性。
本文提出方法在人民日报语料、MSRA 语料和计算机领域语料上进行实验,实验结果充分验证了本文模型实体识别的有效性。
2. 相关工作 第六届MUC 会议(The Sixth Message Understanding Conferences, MUC-6)首次提出命名实体概念, 但并未对命名实体进行明确的定义,只是简要说明需要标注的实体是“实体唯一标识符(Unique Iden-tifiers of Entities)”[1] [2]。CoNLL-2002、CoNLL-2003 会议将对命名实体识别重新定义为句子中所包含的短语,主要包括人名、地名、机构名和时间等特定领域专有名词,大体沿用了MUC 会议的定义和分类规则[3]。
随着命名实体识别的不断发展, 实体的类型和数量也在不断地进行扩充。Alfonseca 等[4]从本体构建组成角度出发,将无监督方法应用于不同语言的命名实体,用来自动扩充具有特定领域知识的实体。并且提出命名实体定义:对于与问题相关的实体对象都可以被称为命名实体。Sekine 等[5]研究发现对于信息提取、问答系统、摘要和信息检索等方面的应用,MUC 会议提出的7 种命名实体类别不能满足实际需要。某些特定领域需要细分,故提出了一种命名实体层次结构,该结构包含大约150 种实体类型,并在后续又对实体类别又进行扩充[6]。Marrero 等[7]从理论和实践的角度仔细分析了命名实体领域的演变和发展历程,发现采取适当的措施和标准方法仔细划分命名实体,有助于提升NER 解决问题的能力。关于