在线评论能够对用户的决策产生重要的影响,一些无良商家会利用这一点通过雇佣水军等方式褒扬自己的商品或诋毁竞争对手的商品,从而影响用户的判断,将利益最大化。为了维护大众消费者的利益,将商品最客观真实的评价展现给用户,为用户提供最可靠的参考,将商品评论分类就显得尤为重要。本文将评论文本和评论发布者特征结合,分别利用融入注意力机制的卷积神经网络模型(ACNN)提取商品评论文本特征和评论发布者特征,综合挖掘其中的信息,从而提高分类的准确率。通过在真实数据集上的多次实验表明,这种方式在评论有效性分类上的准确率达到87.2%,相比只提取评论者特征和只在评论文本中融入注意力机制的分类效果均有提高。
互联网的发展与普及很大程度上改变了消费者的消费观以及消费意见反馈的途径,越来越多的消费者青睐于网上购物与消费。同时,大部分电商平台允许用户对所购买的产品,消费过的酒店,景点等发表评论,来表达消费者对产品的看法。这些评论能够对以后的消费者的决策起到一定的作用,潜在消费者可以以此作为是否消费的重要参考依据。部分无良商家发现利用这一点获取更大的利润,雇佣水军, 学术界也称其为垃圾评论发布者,即发布垃圾评论的人,在本店铺下的商品下进行赞赏,发布积极的评论,来起到诱导潜在客户的目的,或在该商家的竞争对手下,发布一些恶意诋毁的评论,误导该商店的潜在客户,导致客户失去兴趣,从而在一定程度上可以提升自己商店的销量。所以,将商品评论正确分类,将最客观真实的评价展现给用户的研究应运而生[1]。
Jindal 和Liu [2]在2008 年最早提出虚假评论这一研究问题, 把垃圾评论可以大体分为三类:1) 上文所提到的指对产品或服务进行不符合实际的鼓吹或诽谤,从而达到影响用户的观点或消费行为的目的的评论;2) 评论的对象仅仅是品牌、生产商、销售商等与产品本身无关的评论;3) 广告,读者的问题和回复等非评论信息。
Abernethy 等人[3]提出的检测垃圾文本的方法可以检测垃圾网页和垃圾邮件, 大都基于关键词词频统计的方法,一般不能用于检测第一类产品垃圾评论。
该课题早期的研究是基于文本本身,Li 和Ott 等人[4]在心理学角度进行分析,通过词袋及词性特征对评论文本的虚假性进行判断,词袋特征对观点挖掘、情感分析等研究方向是一个十分有效的特征,但是它的单独运用对虚假评论的识别效果不理想,语法分析属于该任务的早期研究方法,同时研究表明虚假评论比真实评论包含更多的情感词,他们认为稀疏相加生成模型在该课题中运用情感极性特征可以发现反常评论信息。
目前神经网络在自然语言处理方面表现较好,现有研究方法一般将评论文本本身和评论发布者的特征相结合,从而有效提升检测效果。在对虚假评论文本的检测研究中,现有研究对文本及评论发布者的综合分析和利用,主要通过特征级别的融合实现。Mukherjee 等人[5]在Yelp 数据集上采用支持向量机分类器,运用评论文本特征获得65.6%~67.8%的准确度。在加入评论发布者的特征之后,检测准确度提升至84.8%~86.1%, 该研究说明评论发布者特征有助于提升对虚假评论文本的检测能力, 同时也说明了Yelp垃圾评论过滤算法的合理性。
Lin 等人[6]根据评论内容和评论发布者特征,设计了基于监督的方法和基于阈值的方法来识别虚假