本文将Transformer模型应用于中文文本自动校正领域,并将Transformer模型中不同神经模块的输出动态结合,同时在模型训练时引入课程学习策略,以加快模型收敛速度。实验结果表明,本文所提出的增强模型及在训练中引入的课程学习策略对校正结果的准确率、召回率、纠错F0.5值有较大提升。
随着新媒体和大数据时代的到来, 互联网每天都会产生海量的文本信息,其中的文本质量良莠不齐, 随之而来的文本校对任务也越来越繁重,由于传统的人工校对方法效率低下,研究快速高效的自动校对方法逐渐成为热点问题。
目前国内在中文文本自动校正领域的研究方法主要有以下3 种:1) 基于语言学和规则的方法,针对具体的错误类型,制定相应的规则进行文本纠错,该类方法的纠错准确性依赖于规则的质量且只能修改特定的错误种类, 可扩展性较差[1];2) 基于概率统计的方法, 利用字词的文本特征, 对语言进行N-gram建模, 并选取合适的统计模型纠错, 但该类方法对于未知词组预测能力低, 存在数据稀疏性问题[2];3) 基于深度学习的方法[3],将文字通过编码转换为词向量,构建深度学习网络,无需考虑具体错误类型,完成端到端的文本纠错。
常用的模型包括LSTM [4]或CNN 神经机器翻译模型[5], 但其存在共同的局限性, 即认为语句中的每个字词具有相同的重要性,无法有选择性地进行关注。
因此,为了提高模型的并行计算能力以及选择性特征提取能力,本文采用基于多头注意力机制的Transformer 模型作为纠错模型,并提出一种新的动态残差结构,增强模型语义特征提取能力。同时为了加快模型生成速度和收敛速度,在训练数据中找到更好的局部最小值,本文在训练纠错模型时引入课程学习策略。通过实验,结合本文提出的两种方法,模型在准确率、召回率、纠错F0.5 值上均有更好的表现。
2. 基于动态残差结构的Transformer 模型 2.1. Transformer 模型及实现 Transformer 是Vaswani 等人[6]在2017 年提出的一个新框架, 作者采用多头注意力机制(Multi-Headed Attention)解决在提取长距离语义信息时,所存在的语义信息丢失问题,其核心结构如图1 所示。
1) Word Embedding 文字可通过Word2Vec、Glove 等词嵌入方法将词语投射到特定长度的向量空间,其中语义越接近的词语,词向量间的距离越近。
2) Positional Encoding 通过增加关于特征的相对、绝对位置提升模型的有序性。
Transformer 模型所采用的不同于RNN, 所以通过使用Positional Encoding 确定单词在序列中的位置。
3) Multi-Head Attention 相当于将n 个self-attention 相结合, 使得模型能够关注到不同子空间的语义信息,本文中n 取8。
4) Encoder and Decoder Transformer 模型沿用了Encoder-Decoder 架构,本文中Encoder 和Decoder模块均由6 个相同神经元模块堆叠而成,每一层中包含Multi-Head Attention 子层和Feed Forward 子层, 子层之间通过残差和归一化相连接。