基于BERT的子词级中文文本分类方法

发布日期：2020年6月4日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

随着时代的发展，网络中文本数量飞速增长，为了高效地提取和处理，对文本进行分类必不可少。该文以BERT模型为基础，提出了一种子词级的中文文本分类方法。在该方法中，使用子词级遮蔽方法改进

文本分类是自然语言处理领域的核心问题之一，也是大数据时代高效获取和处理数据的基础，使用范围非常广泛。近几年来，随着计算能力的提升，以及2006 年Hinton [1]等人提出了深度学习的概念以来，文本分类迎来了新一轮的技术进步。在图形计算单元(gpu)以及并行计算技术的支持下，研究者可以更轻易地训练拥有更深、更多参数的模型，深度学习开始被广泛应用于文本分类研究与应用中，如Yoonkim [2]首次将卷积神经网络(CNN)应用在文本分类任务上，Liu 等人[3]提出的基于循环神经网络(RNN)的文本分类方法，Joulin 等人[4]提出的Fasttest 模型，以及Szegedy 等人[5]提出的Inception 结构，都在文本分类任务中取得了优秀的成果。

但是随着互联网技术的发展，传统深度学习分类模型在面对文本类型越来越丰富的网络文本时，都存在着泛化性较差的问题，比如将处理新闻分类任务的模型用来处理商品评论分类或其他差别较大的其他文本时，分类准确率就会大幅降低，需要调整模型参数并再次训练。

针对这个问题，2018 年华盛顿大学提出了预训练模型ELMO [6] [7]，使用多层双向长短时记忆网络(multi-layer bilstm)对语句建模，并通过下一个词预测训练任务构建通用词向量表达。这种通过预训练的语言模型，能直接使用得到的词向量处理自然语言处理任务，不仅拥有很强的特征提取和学习能力，同时能极大提高文本处理的泛化性。实验表明ELMO 模型在6 个自然语言处理任务上取得了领先成绩，将结果平均提高了两个百分点。但不久之后，Radford 等人[8]提出了预训练模型OpenAI GPT，使用Transformer [9]模型中的解码器(Decoder)来代替Elmo 中的双向长短时记忆网络，在同样使用下一个词预测的训练任务的情况下，在12 个自然语言处理任务中刷新了其中9 个任务的最好成绩。

但Elmo 与GPT 都受限于下一词预测的单向限制问题[10]，导致模型无法准确预测部分词语[11]。针对这个问题谷歌实验室提出了预训练模型BERT [12]，使用全新预测任务遮蔽语言模型[13] [14] (MLM masked language model)来解决单向限制的问题。同时使用不同的Transformer 编码器(Encoder)部分，使模型的参数量比GPT 少4 倍左右。

通过大量实验， BERT 模型再次刷新了11 个自然语言处理任务上的最好成绩，是目前预训练方法中最优秀的模型。自此之后许多研究者开始着手于BERT 模型的研究，如Liu等人[15]将预训练的BERT 模型和多任务学习进行结合，以求获取更好的效果。Sun 等人[16]通过修改模型的输入处理，将单句分类问题改造成BERT 更擅长的双句分类问题进行处理。Sun 等[17]着重研究了BERT 在多个文本分类任务上的表现，详细分析了BERT 的特点与优势。

然而，本文发现BERT 模型在处理中文文本时，由于遮蔽语言模型只会遮蔽并预测单个的中文字符，而不是完整的中文单词，且输入模型的向量中，缺少中文单词位置信息的原因，导致模型构建的中文词