基于TextRank与BERT预训练模型的新闻评论观点句识别方法

发布日期:2022年6月8日
基于TextRank与BERT预训练模型的新闻评论观点句识别方法 基于TextRank与BERT预训练模型的新闻评论观点句识别方法

本内容试读结束

下载后可阅读完整内容,立即下载

由于用户的观点句与新闻内容高度相关,对新闻评论进行观点句识别时需要关注新闻文本这一额外信息。本文针对新闻文本通常很长,BERT并不能很好地处理长序列文本的问题。提出了将TextRank算法与BERT预训练模型相结合的方法,利用TextRank算法从新闻文本中提取出新闻摘要,在不缺失语义信息情况下将较长的新闻文本表示为较短的文本。再将新闻摘要信息与评论通过BERT模型得到语义融合表示向量,最后在全连接层将融合表示向量转换为评论是否为观点句的概率。本文与近年流行的深度学习文本分类模型进行了对比,在准确率上取得了79.80%的最佳效果,说明了模型的有效性。并在NLPCC&2012微博观点句识别数据集取得了准确率为80.38%的最佳效果,验证了模型具有一定的泛化能力。

近年来,互联网的高速发展使得社会进入信息化时代,每天都有大量的新闻及对应的海量新闻评论诞生,网络用户通常会对热点新闻发表大量的评论。新闻评论通常由多个句子组成,但并非所有的句子都能表达用户的观点。实际上评论中有一部分句子属于观点句,另一部分并不属于。正确识别热点新闻评论中的观点句能够有效地从评论中筛选出用户对于某篇新闻的态度及看法,从而引导舆情,降低新闻舆情事件所产生的消极影响。因此,对新闻评论进行观点句识别具有重要意义。

根据NLPCC&2012 对观点句的定义, 凡是表达对特定事物或对象的评价的句子都称为观点句, 只包含内心自我情感、意愿或心情的句子都不是观点句。本文将观点句识别任务看作二分类任务,即对评论中每个句子进行分类,用标签Y 来表示观点句,标签N 表示非观点句。传统的分类方法通常只针对评论进行分类,然而在新闻评论观点句识别中,我们发现用户表达的观点句与新闻的内容高度相关,因此新闻文本信息不能忽视。而BERT 模型在处理新闻这样的长文本时会截断一部分,导致整体语义缺失。因此在此基础上提出一种将TextRank [1]算法与BERT (bidirectional encoder representations) [2]模型结合的方法。首先通过TextRank 算法提取出新闻文本的几个关键句,将这些关键句组成一个简单摘要,再将新



相关标签