随着互联网的发展和电子商务的兴起,人们通过各种社交、电商平台发表自己的看法与见解,从这些用户评论数据中准确地挖掘出有用的信息是当前的研究热点。针对网络中的各类文本评论数据,本文基于深度学习的方法对这些数据进行情感分析,采用长短期记忆(Long Short-Term Memory, LSTM)神经网络模型构建情感分类器,对文本的情感倾向进行预测与分类。实验表明基于LSTM的情感分析方法可以很好地解决长距离依赖问题,具有较好的分类效果。
近年来,在网络的影响下,人们可以通过各大电商平台在网络上进行购物,并在使用后对商品进行评论,或在社交平台上表达自己对于某件事的看法、感想等。我们可以通过提取网络上的这些情感信息从而分析消费者的想法以及舆论的倾向等,为后续改进的方向与决策的实施提供便利。情感分析主要以计算机技术为基础,分析电商平台与社交平台评论的情感倾向[1] [2],从而挖掘出更多重要信息。目前该项技术已经广泛应用于政治与经济等领域[3]。
本文利用深度学习方法构建了情感分类模型,提出基于长短期记忆(Long Short-Term Memory, LSTM)神经网络模型的情感分类方法,通过实验分析比较了本文方法与卷积神经网络(CNN)、循环神经网络(RNN)性能的差异,实验结果表明本文方法可以很好地解决长距离依赖问题,具有较好的分类效果。
2. 相关工作 情感分析的研究历程主要分为基于情感词典的方法、基于传统机器学习的方法、基于深度学习的方法三个阶段。
基于情感词典[4]的情感分类方法主要是将文本中的单词与情感词典中的词进行匹配从而得到文本的情感倾向。该方法的分类质量主要取决于情感词典是否全面且精确。然而,由于分类结果对情感词典的依赖性较高,网络时代新的词语与文本诞生的速度很快,使得该方法不能很好地应用于实时评论数据分析。
基于机器学习的情感分类算法[5] [6]是利用训练好的分类器对文本的情感倾向进行分类。
比较常用的方法有朴素贝叶斯方法,主要通过计算先验概率、后验概率、条件概率等来对文本的情感进行分类,该方法对小规模数据表现良好;最大熵方法主要通过计算文本的熵值来进行分类;支持向量机方法通过核方法来进行优化,并加入了正则项来提高模型的泛化能力。与基于情感词典的方法相比,机器学习方法提高具有一定的自主性,不需要制作特定词典进行分类,只需要对标记好的语料库进行训练即可。但对语料进行标注需要花费大量人力与物力[7]。
随着网络的发展, 传统的情感分析方法在处理文本数据时效率低下。
而随着深度学习的出现与发展, 基于深度学习的情感分析模型逐渐发展壮大。常用的基于深度学习的情感分析算法主要包括:卷积神经网络CNN [8]、循环神经网络RNN [9]以及由RNN 改进而来的长短期记忆网络LSTM [10]。其中,CNN模型存在许多局限性,虽然其通过卷积层对特征图进行了提取,获取了文本中最重要的特征,但同时也失去了该特征的位置信息,而位置信息在文本情感分析中往往十分重要。RNN 的出现使文本序列问题有了解决方法,但还是无法解决文本的长距离依赖问题。而LSTM 网络通过添加记忆单元使得网络能够处理长距离信息,适用于文本情感分析问题。因此,本文基于LSTM 构建文本情感分类模型,对文本的情