空间并置(co-location)模式挖掘旨在发现空间中频繁在一起出现的空间特征的子集。空间并置模式中有一类模式其特征的地位是不平等,发现含主导特征的并置模式可以为实际应用提供更为精准的决策支持。由于单一的邻近距离阈值判定两个空间实例间的邻近性会导致邻近关系的缺失,因此,本文首先定义空间实例间的模糊邻近关系,然后定义模式中特征的模糊影响度和模糊影响比识别含主导特征的并置模式;其次,提出基于模糊邻近关系的含主导特征的并置模式挖掘算法及算法优化策略;最后,在合成数据集和真实数据集上验证了算法的正确性和有效性,并在真实数据集上对挖掘结果的实用性进行了比较和分析。
随着基于位置服务(LBS)、全球定位系统和移动电子设备的快速发展, 带有空间位置信息的数据急速增长,产生了大量的空间数据[1]。空间数据挖掘旨在从海量、高维的空间数据中挖掘潜在有用的和有价值的信息[2]。空间并置(co-location)模式挖掘作为空间数据挖掘的一个重要研究方向,在环境保护[3]、城市计算[4]、公共交通[5]等领域具有重要和广泛的应用。空间并置模式是一组空间特征的子集,它们的实例在邻域内频繁并置出现。例如,医院附近往往存在药店和花店,根瘤菌往往长在豆科植物旁等等。
传统的空间并置模式挖掘一般采用最小参与率(参与度)度量, 即用一组空间特征的实例在邻域中共同出现的频率衡量其模式的有趣程度[6]。然而,基于参与度的频繁并置模式挖掘框架无法得到模式中特征的主导关系。识别空间并置模式中特征之间的主导关系,可以更好地为空间并置模式挖掘的实际应用提供决策支持。例如在植被数据上挖掘出的{松树,杉树,松茸}是一个频繁空间并置模式,其参与度可以很好地反映出该特征[7]组共现的强度,但参与度信息不能体现“松茸”的生存受到“松树”和“杉树”的影响,即在这个模式中“松树”和“杉树”是这个模式的主导特征。在植物分布分析和应用研究中, 尽管挖掘出的频繁并置模式可以发现共生的植物物种关系,但是为了进一步研究植物群落和分布的结构和特征,挖掘出含主导特征的空间并置模式可以为植物学家提供更丰富的信息。另外,含主导特征的并置模式挖掘也可以为商业选址和主导设施的建立提供重要的方向和信息。然而,目前提出的含主导特征的空间并置模式挖掘方法没有考虑到空间特征实例的邻近关系是一个模糊的概念,用单一的邻近距离阈值确定两个空间实例的邻近关系会造成邻近关系的缺失;另外,在定义模式中特征贡献度和影响度时也没有考虑到贡献和影响程度的模糊性。
基于以上思考,本文将实例的邻近关系作为模糊概念定义了模糊邻近关系,基于此定义了实例的模