近年来,以微博为代表的中文媒体平台正在不断融入人们的生活,人们每天都在这些平台上发表自己的观点、感受等其他主观信息,如何从这些信息中提取有价值的情感信息并加以利用就称作情感分析。本文提出了一种基于情感词典与语义规则集的微博文本情感分析方法。我们的方法将现有的多个基础情感词典结合起来,并基于统计信息的方法构建了微博领域情感词典,同时考虑到中文的语义特性,加入了自定义的语义规则集。为了验证该方法的有效性,我们通过网络爬虫技术获取微博中关于新冠肺炎的评论信息共10万条微博文本,在此数据集上进行了实验。实验结果表明,与传统的基于情感词典的方法相比,我们的方法具有更高的准确性和更稳定的表现,正面、负面和中性情感识别准确率分别达到了79.4%、82.5%、77.3%。综上所述,本文提出的基于情感词典与语义规则集的微博文本情感分析方法具有较高的准确性和泛化能力,能够有效地识别微博文本中的情感,并具有应用价值。
近年来,随着社交网络的兴起,微博已经成为人们重要的社交媒体之一。微博的文本信息量大、实时性高、传播速度快等特点,使其成为了研究者们关注的热点[1]。其中,微博文本分类是研究的重要方向之一,目的是将微博文本根据其内容归为不同的类别,以便更好地进行管理和分析。
微博文本分类中一个关键的问题是如何有效地利用文本中的情感信息。情感是人们对事物的感受、态度和情绪反应,是人类社交行为中的重要因素。近年来,情感词典在情感计算中得到了广泛的应用。
情感词典是由一些情感词汇构成的词汇表,每个情感词汇都带有情感极性标签,表示该词汇所表达的情感是正面的、负面的,还是中性的。利用情感词典可以快速有效地分析文本中的情感信息。
在国外,微博情感分析研究已经开始相当早,并且得到了很大的发展。其中,研究者使用的算法和模型也越来越先进。
2013 年, Mohammad 等人[2]使用情感词典和机器学习算法对英文推文的情感进行分类,取得了较好的结果。2014 年,Mohammad 等人[3]提出了SentiStrength,这是一种常用的英语情感分析工具。该算法可以分析文本中的正面和负面情感,并对其进行打分。此后,一些研究者也开始使用类似的方法对微博情感进行分析。在2018 年,一些研究者通过比较不同的算法,得出了在微博情感分析中表现最好的是基于循环神经网络(RNN)的算法[4]。而在2019 年,研究者们利用预训练的语言模型,进一步提高了微博情感分析的效果。这些预训练的语言模型主要有BERT 和XLNet 等[5]。
在国内,微博情感分析研究也在逐渐发展。2003 年,朱嫣岚等人[6]提出了基于HowNet 词汇语义相似度和语义相关场的情感词极性计算方法,文本判别准确率可达80%以上。2009 年,王素格等人[7]提出