命名实体识别是自然语言处理中的一个重要研究步骤,也是自然语言中许多下游任务的前置任务。传统的命名实体识别方法通常采用简单线性或非线性模型进行识别,实体识别的准确率不高。随着深度学习的引入,能够处理更为复杂的非线性问题,使用神经网络模型来提高实体识别的准确率。本文提出一种基于RoBERTa-CNN-BiLSTM-CRF模型,用于高中数学知识实体的识别任务。首先利用RoBERTa模型中的双向Transformer编码层对数据的特征进行提取与分析生成相应的词向量,然后利用卷积神经网络(CNN)中的卷积层和池化层实现降维操作,提取句子中的局部特征,最后构建适合高中数学知识点实体识别的LSTM-CRF模型进行训练和处理。经过实验表明,该模型具有较高的准确性。准确率、召回率和F1分别达到94.32%、94.58%和94.45%。
命名实体识别(NER)是指在中文文本中识别出实体的边界和类别。
它是关系抽取、事件抽取、知识图谱、信息抽取、问答系统、句法分析、机器翻译等众多自然语言处理(NLP)任务的基础,被广泛应用于自然语言处理领域并发挥着重要作用,用于识别文本中的实体。命名实体识别通常从实体注释开始,然后识别单个实体,最后识别复合实体。
NER 技术主要有以下方法:基于规则和词典的方法、机器学习的方法和基于深度学习的方法。基于规则和词典的方法[1]因依赖于手工指定的原则从而不需要对数据进行标注,但容易出错。Collins 等人[2]发现未标记示例对于命名实体分类会产生影响,要想减少这些影响,需要制定大量规则用来提高实体识别的效率。随后许多机器学习算法被应用于监督NER 中,包括HMM [3]、SVM [4]和CRF [5]等,这些模型利用监督学习算法对特征进行仔细标记。
乐娟等人[6]将隐形马尔可夫模型(HMM)和Viterbi 算法结合来识别京剧机构命名实体。
Bender 等人[7]在命名实体识别系统中利用最大熵模型(MEM)来提高实体识别的准确性。
段少鹏等人[8]提出基于条件随机场(CRF)和支持向量机(SVM)的双层模型对老挝的组织名称进行识别。
最近几年,由于深度学习能够从文本中挖掘隐含的信息,在自然语言处理中得到了越来越多的关注。
NER 算法能够充分发挥深度网络的非线性特性,实现对数据的有效提取。与现有方法(如HMM 和CRF)相比较,深度学习方法可以利用神经网络的非线性激活函数,从海量的数据中提取出复杂特征信息。与基于特征的方法相比,深度学习方法可以从输入中自动发掘信息以及学习信息的表示,从而不需要过于复杂的特征工程。
深度NER 模型采用端到端模型可以避免流水线(pipeline)类模型中模块之间的误差传播还可以承载更加复杂的内部设计, 最终产出更好的结果。
凌媛等人[9]在LSTM-CRF 模型的基础上提出增强的LSTM-CRF 疾病命名实体识别,在字符输入处理中添加了CNN 与LSTM,提高了疾病识别的有效性。由于单向长短期记忆网络只能从前往后读取信息,不能更好的理解词语间的修饰作用,所以提出了双向长短期记忆(BiISTM [10])网络。
万忠宝等人[11]提出融合双向长短时记忆网络(BiLSTN)、注意力机制