本文主要研究了基于非参数方法的分类模型交叉验证结果比较,主要是对实例通过非参数的方法进行模型比较的假设检验,检验两分类模型是否存在显著差异。模型的真实泛化误差是一个较为科学的模型比较标准,对于分类模型而言,模型的真实泛化误差表现为分类模型的误判率,而基于交叉验证得到的结果是模型误判率的一个优良估计,可以通过交叉验证结果对模型进行比较。交叉验证结果是随机变量,存在分布,而对于此随机变量而言,其分布是很难观测的,因此,对于交叉验证结果的比较,本文通过非参数的方法进行模型比较的假设检验,检验两分类模型是否存在显著差异。
对于因变量为分类变量的数据进行建模,有多种建模方法。有基于统计的方法、基于机器学习的方法等等。
在对数据进行建模分析时, 模型对于新数据的泛化能力是评价模型好坏的一个重要标准。
因此, 对模型的比较,较为科学的方法应是对其泛化能力进行比较。事实上,如果已知产生数据的真实模型, 那么使用不同的模型对数据进行建模, 与真实模型进行比较, 理论上可以得到不同模型的真实泛化误差, 用以衡量、比较各模型泛化能力。然而,由于真实模型不可观测,用于建模的各个模型的真实泛化误差是不可得的,只有使用真实泛化误差的估计对各模型进行比较。
Wasseman L.等[1]指出,交叉验证是泛化误差的估计中最简单、使用最广泛的方法。对于模型间的比较,吴喜之等[2]使用k 折交叉验证结果的均值直接进行比较。而使用统计学频率学派的观点看,交叉验证结果作为真实泛化能力的估计量本身是一个随机变量,而对不同模型的交叉验证结果进行比较,实际上是对不同随机变量的比较。因此,较为合理的方法不是直接比较交叉验证结果的均值,而是使用假设检验的方法,对交叉验证不同结果的位置参数进行比较,科学的排除随机因素的影响。高红[3]指出分类器的分类错误率是不可得的,只能被估计出来,并且其估计,即交叉验证结果与其折数、测试集的选取有关。Fushiki, T. (2011) [4]使用了多次的K 折交叉验证估计了模型的预测误差。不同模型交叉验证结果应有其自身的分布,对一些特殊的模型理论上应可以推导出精确分布,而实际中,这是很困难的或不可能做到的,为了排除随机因素的影响,更为合理的方法是进行多重的交叉验证得到交叉验证结果的观测数据,并采用不依赖于分布假设的非参数方法进行分析。Conover, W. J. (2012) [5]提出了多种非参数检验的方法,其中,对本文引用的符号检验理论方法做出了详细说明。
吴喜之[6]指比较成对数据要满足假定,每一对数据或者来自同一个或者可比较的类似的对象。对于两个模型建模效果的比较,由于每一对数据是同一个交叉验证的测试集数据,满足此假设,可以将每一对数据相减后,利用符号检验等进行两模型效果比较即可。
2. 理论说明 2.1. 数据收集 对于分类模型的比较,模型对应的真实泛化误差表现为模型的真实误判率,使用交叉验证的方法, 所得到的测试集的误判率就是真实误判率的一个良好估计。一个分类模型对应的测试集误判率本身是一个随机变量,与折数、测试集的选取有关,对于模型Mi,定义测试集误判率如(1)式,