弹幕文本数据的流行,为短文本处理和实时数据处理提供了大量新的文本数据。本文首先对近年来关于弹幕文本的研究进行了系统性梳理归纳,然后基于文本挖掘技术对节目视频弹幕进行深层数据分析,围绕弹幕文本情感分析的关键技术和基本流程进行重点阐述,主要包括通过Python进行文本获取、文本预处理、高频词与词云图可视化、弹幕文本主题词分析、弹幕文本情感分析等多个模块,完成弹幕情感倾向分析,探究弹幕文本数据结构及文本特征,提高弹幕文本情感分析准确度。
近年来由于网络视频日益扩张、娱乐内容愈加丰富,观众更加注重线上信息的交互,弹幕应运而生。
作为一种新兴互动技术,弹幕在年轻群体中逐渐成为潮流,它被广泛应用于各大视频平台,不断发展、更新,成为了新的“网络舆情传播载体”,并开始对用户决策产生重大影响。相较于偏“理智”、“克制”、“守规矩”的传统式文本发言,弹幕作为一种新媒体盛行下的短文本表达,它以“随意”、“有感而发”的实时评论方式表达了大量的对于当前视频用户的即刻思维认知与即时情感倾向,具有更强情感色彩、时效性和研究价值。
弹幕文本出现初期,弹幕文本情感研究多利用短文本情感分析方法,其研究成果也广泛应用于视频推荐。弹幕文本情感分析是指对短小的弹幕文本进行情感判断,通常包括积极、消极和中性三种情感分类。实现短文本情感分析的方法有很多,其中最常见的是基于机器学习的方法,例如SVM、朴素贝叶斯等模型方法。这些方法通常需要大量标注好的训练数据,用来训练模型,从而使其能够自动识别文本中的情感倾向。但基于机器学习的方法不但需要大量的标注好的训练数据,而且在数据质量和特征选择上也有一定的要求。同时,模型的性能和泛化能力也会受到数据分布和样本不平衡等因素的影响。因此, 在实际应用中,需要不断优化算法和改进数据处理方法,以提高短文本情感分析的准确性和鲁棒性。随着深度学习的发展,一部分学者将神经网络引入到弹幕的研究中。
另外,还有一些基于规则的方法,例如基于情感词典、否定词和程度副词等。这些方法通常需要手工制定一些规则,来判断文本的情感倾向。基于规则的方法具有可解释性和灵活性的优势,但基于规则的方法需要人工定义和调整规则,受到复杂的语义和上下文信息处理限制,因此对领域和语言的适应性相对较低。
然而,无论是基于机器学习的方法、基于深度学习的方法还是基于规则的方法,弹幕文本情感分析的关键在于特征提取。特征提取是指将文本转化为可供机器学习算法或规则引擎使用的特征向量。常用的特征包括词袋模型、TF-IDF、词向量等,这些特征可以帮助机器学习算法或规则引擎更好地理解文本, 并进行情感分类。本文对节目视频的弹幕文本展开深度研究,探究弹幕文本数据结构及文本特征,寻求最优的特征提取模型,提高弹幕文本情感分析准确度。
弹幕具有话题开放性、多元化和情绪化等特点,弹幕文本的情感分析,对于多学科、多领域均具有十分重要的研究价值。海量的弹幕数据中蕴含着用户潜意识的行为认知和丰富的情绪价值,通过对弹幕进行文本挖掘、数据可视化、主题分类以及情感分析,不仅有助于视频作品传播、优化节目设置,而且