发现非稳态霍克斯过程中潜在的格兰杰因果关系具有重要意义。现有的因果发现算法主要基于稳态性假设,无法适用于非稳态的情况。为此,文中提出了一种面向非稳态霍克斯过程的格兰杰因果发现算法:首先,建立非稳态霍克斯过程因果网络结构学习模型;然后,利用贪婪算法来发现某段霍克斯过程存在的模式;最后,利用基于极大似然估计的稀疏组套索(MLE-SGL)的方法发现模式对应的因果关系。在模拟数据上的实验效果验证了算法的正确性和有效性,并在交互式网络电视(IPTV)数据集上发现了一些不同模式及有趣的因果关系。
从观测数据中学习潜在的格兰杰因果关系(Granger Causality)对现实应用具有重要意义[1] [2] [3] [4], 如IPTV 节目推荐[5]、用户商品购买推荐[6]、地震预警[7]、金融分析[8],社交网络分析[9] [10]和生物信息学分析[11] [12]。
这些场景中获取到的数据大多都是连续时间内的动态离散数据, 这样的数据被称为点过程数据。由于数据动态变化,呈现出非稳态的特性,如果想利用这些数据挖掘出数据背后蕴含的事物发生机制,为人们提供有效的信息,关键在于找出这些点过程数据下潜藏的模式,即发现非稳态的格兰杰因果关系。
现有的大多数时序离散数据上的格兰杰因果关系发现的工作[5]-[11]主要关注一类特殊的点过程,称为霍克斯过程,其目的是模拟历史事件对未来事件有影响的复杂事件序列,并试图发现这些过程的格兰杰因果关系。格兰杰因果关系可以通过挖掘出数据背后蕴含的事物发生机制实现,同时能为人们提供有效的信息。比较经典的方法是Xu 等人的工作[13]提出的一种有效的学习算法(MLE-SGL),该算法将最大似然估计器(MLE)与稀疏组套索(SGL)正则化器相结合。此外,他的模型的灵活性允许将聚类结构事件类型合并到学习框架中;Zhou 等的工作[14]提出了一种凸优化方法(ODE),通过将不同个体的重复事件建模为多维霍克斯过程来发现社会影响力的隐藏网络。此外,此外他的工作中还设计了一种算法ADM4, 该算法结合了乘法器的交替方向方法和主化最小化技术;Eichler等人的工作[15]通过使用无穷阶自回归, 引入了一种基于点过程的时间离散版本的链接函数的新非参数估计器的方法(LS),从而得出新估计量的一致性。上述的这些算法大都假设格兰杰因果关系的霍克斯过程是稳态的,故在一个霍克斯过程稳态的情况下,其可以稳健和合理性地恢复了格兰杰因果关系。
在现实中, 多元霍克斯过程中存在多个甚至重复的模式, 这意味着一个霍克斯过程通常是非稳态的。
例如,对于一个有孩子的家庭,一个月内的电视观看记录数据可能存在两种不同的模式。因为观看电视的观众不同,如成年人或儿童,它的电视观看偏好将是不同的。以前的方法[13] [14] [15]的基本假设是数据是稳态的,缺乏考虑到霍克斯过程中存在的非稳态情况,无法知道某一段数据到底是归属于哪一个模式,这将导致他们无法学习出不同模式对应正确的格兰杰因果关系,甚至会得到虚假的因果关系。以图