基于不完全数据缺失值的非参数插补改进

发布日期:2023年11月27日
基于不完全数据缺失值的非参数插补改进 基于不完全数据缺失值的非参数插补改进

本内容试读结束

下载后可阅读完整内容,立即下载

在数据分析研究中,数据的质量越高,数据集整体越完整,那么得到的研究结果往往越有价值。可是现实中常常面临含有大量不完全数据的数据集,如果直接删除不完全数据进行分析研究就会直接损失大量的样本信息。针对不完全数据的缺失值估计问题,基于非参数插补的思想,本文提出了两种回归函数估计量,给出了两种估计量的推导过程,在模拟研究中验证了在不同数据分布以及数据缺失率下,两个改进的非参数插补法对比其他经典的非参数插补法以及加权估计法在总体均值估计方面具有优势。

在当前大数据时代背景下,搜集数据的技术水平相较以前大幅提高,各领域数据的获取也变得越来越容易。但是现实中真正完整的数据集并不常见,更多时候我们获取得到的数据集是不完全的,含有或多或少的缺失数据值。不完全数据的处理问题一直都是统计学领域的研究热点。

处理不完全数据的方法有很多, 大致可分为删除法和插补法。删除法是将含有缺失值的数据删除掉, 该方法操作简单、易于理解,但是仅仅适用于样本数量大并且数据缺失率较小时的场景,并且或多或少会损失掉样本的完整信息。插补法是将缺失值进行估计并插补到数据集中。插补法主要分为单一插补和多重插补。单一插补就是对每个缺失值进行一次估计;多重插补在单一插补的基础上,对缺失值进行多次估计,然后将多个估计值插补进数据集中形成多个“完整”数据集,最后利用评分函数确定最终的估计值。相较于单一插补,多重插补的插补方式是随机抽取的,所以估计效率更高,但多重插补的操作要求较高,需要更多的精力。

关于缺失值插补的研究最早可以追溯到Yates [1]提出的一种缺失值的估计方法,该方法在方差分析中表现出很好的效果。Cheng 和Wei [2]提出了一种叫做核加权回归的非参数插补方法,他们还证明了该插补在估计总体均值时的渐近性质。Cheng [3]提出了一种与核加权回归方法类似的基于最近邻回归加权的插补方法。Horvitz 和Thompson [4]针对抽样调查的缺失数据,认为可以赋予完全观测值适当的倾向函数,提出了一种基于倾向函数的逆概率加权估计法,目的是重现完整的数据集。后期提出的新加权方法基本上是承袭早期的这些思想改进而来。Robins 等[5]将逆概率加权估计用于数据缺失条件下的半参数回归函数估计,发现该估计方法当参数回归模型或者倾向函数任意一种被正确指定时,估计结果都是渐近有效的,这种性质被称为双稳健性质。Ning 等[6]依据HT 估计的原理,改进了核密度插补估计,构造了逆概率加权插补估计量。Ning 等[7]又结合了核密度估计和最近邻估计,提出了一种新的非参数的双稳健插补方法,并比较了各类非参数回归插补方法在正则条件下的渐近性质。祝恒坤[8]提出了一种基于逆概率加权插补和完全插补的Mallows 模型平均方法用于非随机缺失情形,并证明了相关估计量在实现最小平方误差的意义下能渐近地达到最优。丁先文等[9]研究了响应变量随机缺失下,基于分位数回归半参数模型的稳健估计问题,提出了一种新的插补方法对缺失的响应变量进行多重插补。

刘沙等[10]提出了一个基于统计度量的缺失值填补算法, 利用数据点的类中心和标准差来填补缺失值。



相关标签