针对电信客户流失数据集的多维特征和不均衡问题,本文给出了一种基于代价敏感的逻辑回归的电信客户流失预测模型。通过对不平衡样本集分别采用不同权重调整,将代价敏感学习与传统分类算法相结合,建立基于逻辑回归的电信客户流失预测模型,最后对实际电信客户流失进行验证。通过与其他分类器模型的对比显示此方法在各种评估指标上均有更好的表现,更加符合电信业预测客户流失的实际情况。
随着信息技术与移动网络的巨大进步,电信行业的竞争日趋严峻,与此同时,获得一个新用户所花费的成本是挽留一位老客户所花费成本的5~6 倍[1]。因此,对客户流失的分析与预测已经成为电信行业提高核心竞争力的重要方式。为了准确预测流失用户,许多学者采用了传统机器学习的分类算法进行识别客户流失。但由于电信行业的数据正负样本的不平衡,这使得电信行业的流失预测不切实际,机器学习往往认定训练样本中各类样本数量都是均衡的,但在具体问题上却往往不能满足这种数据平衡的条件[2] [3]。数据不均衡会使机器学习训练模型关注于数量较多的样本类型,而忽视数量少的样本类型,从而降低了机器学习模型的测试泛化能力。
例如, 在训练集中, 其中正常的样本有99 个, 负例的样本有1 个。
如果没有考虑到样本的不均衡,则该学习方法会导致分类器放弃对负例的预测,因为分类器将所有的样本分成正例,则可以达到99%的分类准确率。为此,应该考虑不同的实例在分类器中的错误分类成本。
本文介绍了一种代价敏感学习方法,用以对电信业的客户流失,使用欠采样对不同实例的错误分类成本进行修改,结合比较不同传统机器学习分类算法,得到一个符合电信业实际情况的预测模型[4] [5] [6]。
2. 电信客户流失预测原理 在传统的分类算法中,一般都会假定不同类型的样本数量趋于均衡,从而导致对大部分类别的样本进行预测,忽略了少数类别的样本。在电信用户的流失中,存在着严重的数据分配失衡现象[7]。若采用传统的数据挖掘方法,对所有的用户进行预测,其准确率也很高。从表面上来看,这是一种非常有效的方法,但是,当一个具有高价值的用户被认为是一种潜在的用户时,它就失去了其研究的意义。由此可得,在不均衡数据中,准确度并非是一个合适的衡量标准。在不平衡数据中,可以考虑使用混淆矩阵来评估分类器的性能。混淆矩阵包括四种样本类别,分别是真正例TP、假负例FN、假正例FP 和真负例TN。
样本总数TPTNFPFNN =+++ [8]。
将预测结果与样本实际类别结合得到混淆矩阵, 如表1 所示。
Table 1. Confusion matrix 表1. 混淆矩阵 预测为正 预测为负 实际为正 TP FN 实际为负 FP TN