整数值时间序列数据在许多领域中非常常见,可用整数值广义自回归条件异方差(INGARCH)模型来拟合。本文研究了INGARCH模型中的变点探测问题,基于似然比扫描方法(LRSM),讨论了分段平稳的INGARCH模型中变点的数量和位置。然后通过大量数值模拟,验证LRSM的有效性,最后并将其应用于实际数据的分析中。
近几十年来,变点探测问题一直是统计学中的一个热门话题。如今它不仅被广泛应用于工业质量控制[1],还被广泛应用于经济[2]、金融[3]、医学[4]等领域。许多学者对变点探测问题进行了研究。例如, Picard [5]研究了自回归AR 模型变点的最大似然估计。
Bai [6]对最小二乘估计线性回归模型的多变点问题进行了深入探索。
Kokoszka 和Leipus [7]研究了自回归条件异方差(ARCH)模型中单变点检测的相关问题。
Liu [8]提出了一个新的经验似然比统计量来检验无变点的零假设。Foygel 和Drton [9]基于群LASSO 法, 解决了数据稀疏条件下线性回归模型的变点问题。Hudecová,Hušková 和Meintanis [10]研究了INARCH模型中的变点探测问题。Chen 和Lee [11] [12]提出了一种贝叶斯方法来检测广义泊松INGARCH 模型中的变点。Pein 和Sieling [13]提出了一种H-SMUCE 的统计量,用于检测异质高斯回归模型中信号的多个变点问题。Lee [14]利用支持向量回归(SVR)-自回归移动平均(ARMA)模型获得的残差,考虑了基于位置和尺度的CUSUM 检验的时间序列变点检验问题。Lee 和Kim [15]重点介绍了整数值自回归(INAR)和INGARCH 模型的CUSUM 检验和整数值时间序列模型变点检验的最新进展。
在时间维度上,计数过程体现在生产生活各方面,比如一个城市在数月内道路交通事故发生次数、一家医院某种传染疾病每天的感染人数、商场中销售的某个商品数量、某只股票每天价格变动的次数、某一地区的犯罪数量和某个国家新增的失业人数等等。取值非负整数和有一定的自相关性是这种数据的两个明显的特点。而对于这类数据,如果用广义自回归条件异方差模型(GARCH)来拟合,效果不好。虽然这个模型可用来拟合有自相关关系的数据,但这个模型是在实数域基础上而非整数域,故对于这种数据,用整数值时间序列模型进行拟合要更好一些。近三十年来,许多整数值时间序列模型应时而生,其应用前景也越来越广阔。比如为描述癫痫患者的发作次数,Franke 和Seligmann [16]提出自激励门限自回归模型、Gauthier 和Latour [17]提出的广义整数值自回归模型等等。
本文研究的整数值时间序列模型分别是由Ferland [18]提出的泊松INGARCH 模型, Fokianos 和Tjøstheim [19]提出对数线性泊松INGARCH 模型。
变点探测常用的方法是通过优化特定的目标函数来寻找变点,如最小二乘法[20]和贝叶斯方法[21]。
为了避免优化问题,BS 方法[22]是一种流行的解决方案。此外,还有Davis 等人[23]提出的遗传算法、Killic 等人[24]提出的Pruned Exact Linear Time (PELT)方法和Yau 等人[25]提出的LRSM。相比较于BS和PELT, LRSM 不仅将计算难度从n2 降低到( )log n , 且提高了变点估计的准确性。
目前, 据我们所知, LRSM 还没有运用到整数值时间序列的变点探测中。
本文的梗概如下。第2 节中,我们将详细介绍基于LRSM 在分段平稳过程中估计多个变点的三个步骤。第3 节讨论了窗口半径的选取问题。第4 节对LRSM 进行了大量的模拟研究。通过对不同模型的重复试验,深入研究了LRSM 的变点探测性能。第5 节研究了LRSM 在实际生活中的应用。第6 节为对全篇内容做出总结,概述本论文所做的工作。