展示广告是网络广告的重要组成部分。在展示广告投放前对其点击情况进行预测不仅能够减少广告投放的成本也能够提高互联网公司的资源利用效率从而增加收入。随着大数据以及机器学习技术不断成熟,越来越多的公司采用相关技术预测广告点击率。本文从特征重要性以及模型适合性两个方面研究展示广告点击率预测问题。首先,文章通过对比广告特征、用户及上下文特征、媒体特征三大类特征发现广告特征对于广告点击率预测问题最为重要,同时加入媒体特征以及用户上下文特征也能够提升模型效果。其次,本文对比研究了常用于广告点击率预估的机器模型优劣,主要从模型性能以及模型耗时两个维度进行比较。本文发现逻辑回归模型、随机森林模型、梯度提升决策树模型是最适合解决广告点击率预测问题的机器学习模型。
据统计[1], 2018 年中国网络广告市场规模达到3750.1 亿元, 在互联网核心企业中,网络广告收入占总体的60%以上,网络广告仍是互联网产业的核心商业模式。以图片、文字等形式定向推送给用户的网络广告即为展示广告, 它是网络广告中一个非常重要的组成部分。
展示广告投放的主要目标是精准营销, 即在一定预算成本下,将广告投放者的收益提升至最大化以提高收益节约成本,其中一个方法就是最大化展示广告的点击次数。因此,这就需要不断提升广告被点击的次数。在大数据时代,借助机器学习模型对广告日志数据进行分析以预测广告的点击情况不仅能够达到精准营销的目的,也能够优化广告投放分布,最终提升广告收入。
本文主要从广告日志特征选择、机器学习模型分析两个方面研究广告点击率问题。通过多个实验分析,本文得到预测广告点击率最佳的机器学习模型以及广告特征、上下文及用户特征、媒体特征对模型的不同影响。
2. 相关工作介绍 传统的机器学习模型在广告点击率预测任务上应用广泛。传统的机器学习方法主要分为单一模型预测以及模型组合预测两大类。在单一模型中,逻辑回归、决策树等是较为常见的模型。Richardson 等[2]使用广告特征、关键字以及用户特征与逻辑回归模型结合预测广告点击率,并分析了不同关键字对广告点击情况的影响。Dupret [3]等基于充足的历史广告点击数据应用决策树等模型进行广告点击率预测。此外,还有其他的机器学习模型如:支持向量机模型[4]等应用于广告点击率预测并都取得了不错的效果。
在模型组合方面,Facebook [5]公司研究人员将梯度提升决策树与逻辑回归结合,将经过梯度提升树模型转化后的特征组合作为逻辑回归模型的输入也得到了不错的效果。Yahoo [6]公司研究人员将集成学习应用于广告点击率预测,通过改变各个分类器的权重以关注分类错误样本以提升预测精度。这些方法都取