针对基于内容的新闻推荐中存在的多样性不足、潜在兴趣缺失等问题和协同过滤的推荐方法存在的冷启
互联网最重要的贡献之一是让信息的获取变得更加简单高效,而在个人设备上阅览网络新闻成为人们最重要的信息来源之一,CNNIC 发布的第35 次《中国互联网络发展状况统计报告》指出到2014 年12月,网络新闻的使用率已达到80.0%,远超其他网络应用,但与此同时带来的信息爆炸和信息的良莠不齐给用户带来不好的使用体验,因此关于新闻推荐的研究越来越多,而随着推荐技术和算法的发展,对新闻推荐的发展带来重大影响。
目前,国内外的新闻推荐已经有较多的研究。文献[1]使用基于内容的推荐方法,通过提取历史浏览的文本特征构造用户兴趣模型,将候选新闻与用户兴趣模型进行比较得到推荐结果。基于内容的方法可解释性强,推荐理由让用户容易理解,但存在冷启动问题,它在推荐多样性上存在不足,难以发掘用户潜在兴趣[2]。文献[3]使用了协同过滤的新闻推荐方法,通过计算用户行为相似性,向目标用户推荐同类用户关注的新闻。由于协同过滤通常需要数小时积累用户点击才能形成推荐,造成了冷启动问题。文献[4]通过混合协同过滤一定程度上解决了数据稀疏的问题,但需要用户对新闻评分,协同过滤在新闻推荐的个性化方面也表现不足。
文献[5]将基于内容的矩阵协同过滤得到用户潜在兴趣矩阵从而进行新闻推荐, 但没有考虑上下文等信息。
除了考虑基于内容的推荐、协同过滤推荐等基本技术,结合上下文感知[6] [7] [8]的新闻推荐和基于社会化网络的移动新闻推荐[9]成为近来的研究热点。事实上,许多社交媒体信息都和新闻事件相关, Twitter 上甚至有超过85%的内容是和新闻有关联的[10]。Abel 等人[10]提出的个性化新闻推荐框架利用微博中的URL 链接或相似度计算将微博与相关新闻联系起来, 然后从新闻中抽取实体、主题等来丰富相关微博的语义信息,并分别建立了3 种用户偏好档案用于新闻推荐:基于Hashtag、基于实体和基于主题的用户档案等。然而,上述的结合上下文、社交媒体和传统新闻进行新闻推荐时候都没有考虑用户的潜在兴趣的挖掘,于是本文基于社交媒体的特点,提出了融合用户微博兴趣挖掘与协同过滤的新闻推荐方法。
2. 推荐框架 本文推荐框架主要有二个模块,即用户微博兴趣挖掘模块和推荐模块,总流程架构如图1 所示。
各模块的功能如下: 1) 兴趣挖掘模块。用户微博中的数据有如文本、图片、视频、标签、关注者和粉丝等各种数据。本模块主要针对文本、标签、关注者、转发和评论数据进行挖掘,用来构建用户兴趣集进行新闻推荐。