在中文命名实体识别任务中,BERT预训练语言模型因其良好的性能得到了广泛的应用,但由于参数量
命名实体识别(Named Entity Recognition, NER) 任务一直是自然语言处理(Natural Language Processing, NLP)领域中的研究热点,主要采用序列标注的方式,获取文本中具有特定意义的实体。从早期基于规则和字典的方法开始,历经传统机器学习方法和深度学习方法,到近两年来的预训练语言模型, 研究者们进行了不断的尝试与探索。
在NER 任务中,传统机器学习方法,如隐马尔可夫模型(Hidden Markov Model, HMM)、最大熵马尔可夫模型(Maximum Entropy Markov Models, MEMM)和条件随机场(Conditional Random Field, CRF), 利用概率图模型的思想,计算当前序列中的状态转移概率,进而获取最优标注序列[1]。另一方面,深度学习方法,如循环神经网络(Recurrent Neural Network, RNN),逐渐演化出长短期记忆网络(Long Short-Term Memory, LSTM)与门控循环单元(Gated Recurrent Unit, GRU)等具有记忆功能的网络结构,通过融合更多信息获取更好的效果[2]。
2013 年, Mikolov 等人提出词向量化工具Word2Vec [3], 如何训练词嵌入(Word Embedding)成为新一轮的研究热点。2018 年,Devlin 等人结合前人的经验,提出了BERT (Bidirectional Encoder Representations from Transformers)预训练语言模型[4], 在NER 等11 个NLP 任务上取得了最好效果。为解决BERT 参数量过大的问题,Lan 等人于2019 年提出了ALBERT (A Lite BERT)预训练语言模型[5],在基本维持性能的前提下,获得了更好的模型扩展性。
本文将ALBERT 预训练语言模型与BERT 预训练语言模型在MSRA 公开的中文命名实体识别数据集上进行对比,并结合BiLSTM-CRF 模型,构建ALBERT-BiLSTM-CRF 模型,在数据集上进行了进一步实验验证,结果表明ALBERT 预训练语言模型保留了相对良好的性能,并具有很好的可扩展性。
2. 相关工作 与英文不同,中文构成较为复杂,不仅在语义上存在字符与词语的区分,还有笔划与部首等额外信息。Dong 等人应用融合了字符嵌入和部首级表示的BiLSTM-CRF 模型[6],在没有精心调整特征的情况下取得了更好的效果。
Xiang 等人提出了一种字词混合嵌入(CWME)方法[7], 可以结合下游的神经网络模型有效地提高性能。Zhang 等人提出了Lattice LSTM [8],对输入字符序列以及与词典匹配的所有潜在词进行编码,显式地利用了字符信息和词序信息,避免了分词错误,并在MSRA 公开的中文命名实体识别数据集上达到了93.18%的F1 值。针对微博数据集等口语化较多的语料,Xu 等人提出了ME-CNER [9],