目前,大多数聚类方法是二支聚类,即每个对象要么属于一个类,要么不属于一个类,聚类结果具有清晰的边界。然而,将某些不确定的对象强制分配到某个类簇中会降低聚类结果精度。而三支聚类是一种 *通讯作者。
聚类是一种无监督的学习方法,是机器学习、数据挖掘、模式识别和图像分析等领域中一个极具挑战性的研究方向。聚类反映了在不同层面做出相应决策的过程,即聚类是在一定粒度层[1]面确定样本对象属于或者不属于某一类簇的过程。
聚类分析的一个广泛潜在假设是一个类簇可以用单一的集合来表示, 或者说类间的边界是确定的、清晰的。虽然在聚类分析中有许多聚类算法且都有自己特有的发现潜在数据结构的方法,但是不同的聚类算法可能会有不同的聚类结果。因此,在没有任何监督信息的情况下, 很难判断出哪一种聚类结果适合当前的数据集。而集成聚类很好地解决了该问题,聚类集成主要包含两个过程:生成过程与一致性划分,本文方法主要是解决已生成的聚类结果的一致性划分问题。
为了解决传统聚类方法存在的问题以及三支决策理论的提出, 许多新的决策聚类方法被提出。
Lingras和Yan [2]认为使用区间集可以更好地表示聚类结果。在此基础上本文提出的三支聚类算法是在二支聚类结果的基础上进行收缩和扩张分别得到三支聚类结果的核心域和边界域。该算法的聚类结果相比经典的聚类算法有较大的改进。
本文针对二支决策聚类结果如何转换为三支决策聚类结果的问题,提出了基于集成聚类框架并采用投票方式的一种解决方案。具体来说就是:在二支集成聚类的过程中,首先对聚类结果中所有类簇进行交集运算,交集部分的样本对象可以明确其归属类簇,即将这些样本都划分在同一类簇。然后,将这部分对象划分到相应标签对应类簇的核心域。最后,根据投票规则确定剩余样本对象的所属类簇。根据本文提出的基于投票的三支决策聚类方法,得到类簇的核心域与边界域确定全部数据对象的类簇归属,最终将二支决策聚类结果转换为一个三支决策聚类结果。
2. 相关工作 2.1. 三支聚类 人们通常根据事物已有的信息做出相应的决策,然而,信息的获取通常是一个动态的过程。现实生活中,由于样本对象信息不充分且不能确切地确定其类别归属,则需要其他方法来处理含有不确定性特征的聚类任务即三支决策聚类。对于信息充分的对象可以做出确切的决策,而对于信息不够充分的对象则需要进一步获取相关信息后作出决策,这是一种典型的三支决策思想[3] [4]。
三支决策是姚一豫教授[5] [6] [7]于2010 年提出的一种基于粗糙集和决策粗糙集知识的理论。
三支决