生成方法[J]. 计算机科学与应用, 2024, 14(3): 10-19. 基于T5-PEGASUS-PGN模型的中文新闻文本摘要生成方法 曹一平*,张胜男 沈阳工业大学软件学院,辽宁 沈阳 收稿日期:2024年2月7日;录用日期:2024年3月5日;发布日期:2024年3月13日 摘 要 针对预训练模型训练任务与下游摘要生成任务存在差异、生成文本存在重复内容造成摘要可读性差的问题,基于T5-PEGASUS和指针生成网络,提出了一种自动摘要模型——T5-PEGASUS-PGN。首先利用T5-PEGASUS获取最符合原文语义的词向量表示,然后借助引入覆盖机制的指针生成网络,生成高质量、高可读的最终摘要。在公开的长文本数据集NLPCC2017的实验结果表明,与PGN模型、BERT-PGN等模型相比,结合更贴合下游摘要任务的预训练模型的T5-PEGASUS-PGN模型能够生成更符合原文语义、内容更加丰富的摘要并且能有效的抑制重复内容生成,同时Rouge评价指标Rouge-1提升至44.26%、Rouge-2提升至23.97%以及Rouge-L提至34.81%。
近年来,计算机科技的飞速进步推动了互联网上文本数据的爆炸式增长,新闻内容更是以惊人的速度持续涌现,无时不刻不在更新。用户如何在有限的时间内获取到海量信息的核心内容成了亟需解决的问题,文本摘要算法应运而生。
自动文本摘要主要分为抽取式和生成式两种技术路线[1]。抽取式摘要认为文中每一个句子都可能是文章的摘要,根据概率进行排序,然后选择概率最高的句子来组成摘要;生成式摘要则使用机器学习模型去理解文章的意思从而生成新的摘要。
Luhn [2]最早提出文本摘要的概念,基于统计学原理,对文中的高频词进行统计,对高频词所在句子进行综合打分,将得分最高的句子视为摘要。机器学习的快速崛起推动了文本摘要技术飞速发展。
2014 年Google Brain [3]提出了Seq2Seq 模型,即序列到序列模型。编码器和解码器是Seq2Seq 模型的核心部分,Seq2Seq 模型可以根据给定序列去推理生成另外一个序列。
针对Seq2Seq 模型处理长序列时早期信息容易被覆盖的问题,Dzmitry Bahdanau 等人[4]将注意力机制引入到Seq2Seq 模型当中,使模型可以关注到上下文信息,在机器翻译任务中取得显著效果。
PGN [5] (指针生成网络)在Seq2Seq + attention 的基础上,增加一层指针概率的计算,使模型根据概率自由选择生成新词或从原文中复制单词,避免了OOV(未登录词)问题的出现。同时在指针生成网络中可以加入覆盖机制,避免注意力过分聚焦某一个单词,从而生成重复的单词或短语。
谭等人[6]在将预训练语言模型BERT 与PGN 相结合,提出了分阶段的生成式模型BERT-PGN,第一阶段通过BERT 模型获取含有多维语义特征的词向量, 第二阶段通过PGN 模型进行摘要生成, 从而获得了贴合原文语义的摘要。
自动文本摘要中的新闻摘要与其他摘要类型的区别在于其时效性、语言风格、信息选取和目的与用途等方面的特点。同时,采用与下游任务更相近的预训练模型可以显著提高模型整体性能。