一种参数可调的微博用户影响力评价方法

发布日期:2019年1月17日
一种参数可调的微博用户影响力评价方法 一种参数可调的微博用户影响力评价方法

本内容试读结束

下载后可阅读完整内容,立即下载

针对经典和改进的PageRank算法在计算微博转发和评论时采取PR均值分配进而造成PR值损失问题,提出了一种参数可调的微博用户影响力评价方法RCRank。RCRank在已有的PageRank算法基础上,增加了微博转发和评论影响微博用户影响力计算值的可调节参数。在实际数据集上的实验结果表明,在计算用户影响力时,相比于传统的PageRank和TunkRank算法,RCRank方法更接近真实情况。

Facebook、Twitter、微博、微信等流行的在线社交网络(Online Social Network,简称OSN)工具正在改变用户与用户之间的互联网通信和互动方式[1] [2],网络社交、网上阅读、网上评论/转发正逐渐被人们接受,成为人们主要的社交方式。据《中国互联网络发展状况统计报告》显示:截止2018 年6 月,中国网民规模达到8.02 亿人,其中微博用户规模为3.37 亿人。以2018 年8 月份发生的85 度C 事件为例, 在强大网民的舆论下,85 度C 在台湾的股价连续3 天下跌21%,足见网络传播的威力。由于微博用户量大、传播迅速,微博传播规律的研究正成为政府和业界关注的焦点。研究OSN 用户影响力,挖掘网络传播关键路径和关键节点,为政府就如何加快正面信息传播和控制负面新闻扩散提供决策支持,这很有意义。

就微博用户影响力评价而言,近几年,业界涌现出多种方法,典型的方法包括: 1) 基于URL 追踪的评价方法。该方法通过追踪URL 传播情况,按一定方式分配相应的影响力进而进行评价[3]。

2) 基于用户关系的评价方法。该方法参考Google 的PageRank 算法或其改进算法[4]-[9],但没有考虑到“僵尸粉”影响,没有考虑到微博转发或者评论情况。

3) 基于用户行为的评价方法。微博用户行为包括微博转发、评论和点赞等,研究微博用户行为,主要是为排除“僵尸粉”干扰, 通过结合微博用户行为计算用户影响力, 能更符合真实情况[10] [11] [12] [13]。

这些方法中, 有的考虑到用户粉丝数、用户是否认证、用户微博的转发和评论等指标, 有效地解决了“僵尸粉”干扰情况。但有的忽略了微博用户本身影响力的不同,且单考虑用户行为因素,忽略了用户之间本身存在影响力传播不均匀情况,所以出现了基于用户行为权值的评价方法。

4) 基于PageRank 和用户行为权值的评价方法[14] [15] [16]。

近几年, 有学者提出了传统的PageRank算法应用在计算微博用户影响力时会存在PR 值分配不合理问题。例如,一个用户若经常转发或者评论某博主用户的微博,那么在传递PR 值(影响力值)时,相比其他微博用户,该用户理应给予更大PR 值才较为合理一些。基于此,提出引入权值思想的方法,这些方法都得到较好效果,但也存在一些不足。如下: 文献[14]为了弥补传统PageRank 算法均值分配不足, 提出基于用户行为权值分配的BWPR (PageRank based on behavior weight)算法,给特定用户分配大一些PR 值,但该算法计算过程复杂,不利于大规模数据计算。文献[15]采用加权PageRank 算法结合K-means 算法计算各个领域用户的影响力,虽然节点影响力的传播按照边的权重分配,但算法仅适用于特定领域加权计。文献[16]利用权重修正传统的PageRank模型的概率转移矩阵,能取得较好的效果,但没有考虑用户微博转发和评论等特征。

综合考虑以上存在的问题,本文提出RCRank 算法,该方法不仅考虑到微博转发和评论特征,而且考虑到传统PageRank 算法存在均值分配不合理问题,通过引入可调节参数进行修正,且通过试验证明, 该方法计算过程简单有效。



相关标签