基于Attention-Bi-LSTM的微博评论情感分析研究

发布日期:2020年12月30日
基于Attention-Bi-LSTM的微博评论情感分析研究 基于Attention-Bi-LSTM的微博评论情感分析研究

本内容试读结束

下载后可阅读完整内容,立即下载

短文本情感分析,在舆情监控和商业上有很多重要应用。以微博评论文本为研究对象,通过对微博评论文本进行分词、去除停用词,并使用Word2vec进行词向量训练得到词向量,并在Bi-LSTM中引入Attention机制,对Bi-LSTM双向处理后的结果进行加权进行输出。实验结果表明,Attention-Bi-LSTM与Bi-LSTM相比能有效识别出情感语句中重要的语义,提高预测的准确度。

微博是具有巨大用户群体的社交网络平台, 用户在微博上发表自己的观点, 情绪, 记录自己的生活, 大量用户的情感趋向对于政府的决策起到很重要的作用。情感分析分为有监督学习和无监督学习。有监督学习需要手动提取特征,如传统的决策树、随机森林等,无监督学习无需手动提取文本特征,借助词典方式或者对句子语法分析进行提取情感信息。

彭丹蕾[1]在商品评论情感分析中使用机器学习的SVM 方法和深度学习LSTM 方法进行对比分析, 发现LSTM 能够更好的提取词向量中隐藏的情感信息,达到更好的效果。Subarno Pal [2]等人在电影评论数据集中使用LSTM,并使用LSTM 彼此堆叠和双向LSTM 进行对比研究,研究发现双向LSTM 在此数据集中准确度更高。

Luong 等人[3]提出局部注意力机制, 对一个窗口范围内的词进行分布式表示, 对固定大小的窗口范围内所有隐状态进行权重计算。本文使用word2vec 在已有微博情感语料库中进行词向量训练,同时去除了部分低频词。为了加强词语关联性,提升情感分析准确率,在Bi-LSTM 中引入Attention 机制应用在已有微博情感评论数据集进行情感分析,实验表明引入Attention 机制的Bi-LSTM 要优于基准Bi-LSTM 算法。

2. 算法描述 本文使用Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification (基于注意力的双向长短期记忆网络关系分类网络)算法, 以下简称ATT-Bi-LSTM。

这是一种改进的RNN算法模型,模型结构如图1 所示。与传统RNN 模型相比,此模型的双层LSTM 能解决了循环神经网络中的梯度消失问题。LSTM 具有门机制,从而能够控制每一个LSTM 单元保留的历史信息的程度以及记忆当前输入的信息,保留重要特征,丢弃不重要的特征[1]。并且引入了Attention 机制,解决传统中文文本分类对于长序列编码解码精度下降的问题,针对时序获取关键信息。

2.1. Word2vec 模型 Word2vec 是Tomas Mikolov 通过NNLM 模型的改进而研究出来的工具[4]。

Word2vec 模型如图2 所



相关标签