融合分词和语义感知的中文文本摘要模型

发布日期:2021年12月13日
融合分词和语义感知的中文文本摘要模型 融合分词和语义感知的中文文本摘要模型

本内容试读结束

下载后可阅读完整内容,立即下载

模型[J]. 计算机科学与应用, 2021, 11(12): 2913-2923. 融合分词和语义感知的中文文本摘要模型 冯正平,王 勇 广东工业大学计算机学院,广东 广州 收稿日期:2021年11月8日;录用日期:2021年12月6日;发布日期:2021年12月13日 摘 要 针对文本摘要生成过程中词组搭配不当、语义表达偏差导致可读性和准确性降低的问题,提出一种融合分词(Word Segmentation, WS)和语义感知(Semantic Awareness, SA)的中文文本摘要模型。编码器使用预训练语言模型,在输入阶段添加中文分词嵌入,获得包含词组信息的语义向量送入解码器;在编解码器间引入语义感知评估,提高摘要的语义契合度。在新闻和科学文献摘要数据集上的仿真结果表明,该模型能有效提高文本摘要的质量。

互联网时代下,文本信息呈现爆炸式增长,信息过载问题日益严重,因此自动文本摘要成为当前一个热点研究课题。

随着机器学习技术在自然语言处理领域广泛应用, Rush 等[1]首次将序列到序列(sequence to sequence, Seq2Seq)模型应用于文本摘要任务中,模型由编码器和解码器组成。针对生成摘要过程中出现语义表达偏差的问题,倪[2]和Ma [3]等加入语义评价,以提高摘要的语义相关性。Devlin 等[4]提出基于双向Transformer [5]编码的预训练模型BERT,双向编码使得每个词向量都包含丰富的上下文语义信息。预训练语言模型在自动文本摘要领域的应用策略主要分为基于特征和基于微调的方法,如Wang [6]等使用BERT 提取文本的特征向量作为下游摘要任务的输入, BERT 仅仅作为特征抽取器, 参数不随训练过程改变。

而Wei [7]和Liu [8]等使用微调的训练方法让BERT 为摘要任务提供先验知识的同时也在训练过程中更新内部参数,后者同时提出BERTabs 基础框架;大量实验结果证明微调的方法更能凸显预训练模型的作用。针对原BERT 模型使用词掩码作为预训练任务的局限性,Cui [9]等结合中文分词的特性,提出中文全词掩码预训练方法(Whole Word Masking, WWM)。百度提出ERNIE [10]模型将字、词组和实体等知识引入到预训练过程中,目的都是使模型学习更多中文词组和实体信息。

受上述已有研究启发,本文提出一种融合分词和语义感知的中文文本摘要模型。模型以预训练语言模型为编码器,在文本输入阶段添加中文分词嵌入编码,极大程度地编码词组和上下文语义信息;使用多层Transformer 解码单元作为解码器实现摘要的并行输出;在编解码器间引入语义感知模块, 通过计算标准摘要和生成摘要之间的语义相关性,促使模型生成语义完整的内容。仿真结果表明该模型能有效提高摘要的可读性和语义准确性。

2. 预训练语言模型 语言模型能在海量语料的预训练中学习到通用的语言表示,带来更强的泛化性能并加快目标任务的收敛速度。BERT 采用双向Transformer 编码结构,共12 层。其中Transformer 编码单元包含两个子层:多头自注意力机制层(MultiHead Attention)和全连接前馈神经网络层(Feed Forward Neural Network),每个子层中都加入了残差连接[11]和层归一化操作(Layer normalization, LN)。以x 作为输入,编码单元输出可写为: ( )()()_SubLayerOutputLN xSubLayer x=+ (1)



相关标签