本文提出了一种新的基于流行距离的谱聚类算法,这是一种新型的聚类分析算法。不仅能够对任意的非规则形状的样本空间进行聚类,而且能获得全局最优解。文章以聚类算法的相似性度量作为切入点,对传统的相似性测度方法进行改进,将传统谱聚类算法(NJW-SC)中的基于欧氏距离的相似性测度换为基于流行距离的相似性测度,在此基础上对样本对象集进行聚类。之后将新提出来的算法同K-Means算法、传统谱聚类算法、模糊C均值聚类算法在人工数据集上进行实验对比,得出新的算法在非凸形状的数据集和在全局一致性上取得了较好的效果。在UCI数据集上用人工评价指标F-measure对聚类质量进行评价,发现其也优于其他方法。在通过实验数据验证后,我将谱聚类算法应用在实际的数据中,看其是否能取得良好的效果。查阅资料,最终选取了极光图像,通过对极光图像的分类验证了谱聚类算法在极光分类中也有很好的应用。
近年来人们逐步陷入数据丰富而信息匮乏的尴尬境地,有很多数据分类或聚类问题的困扰。我们国家有一句谚语,说“物以类聚,人以群分”,其实也就是说同类的东西聚在一起,相似度会高一些,而不同的则分开。聚类思想也就一直存在,只是随着科学和人类社会的发展,人们逐渐将它概念化、理论化。从古至今,人类处理大型问题的重要手段之一就是分门别类,治而理之。因此,如何将具有性质相同的对象有效划分到同一个子集中变成了我们要研究的问题。聚类分析是常见的一种信息处理的方法, 而聚类就是在聚类分析中常用的数据分析工具[1]。不同于分类的需要在已知类别的训练集基础上构建, 聚类是一种探索型的分析方法,不必事先给出分类标准,在聚类之前也不知道要将数据划分成几个什么样的组,依靠的仅仅是数据间的相似性。而对于使用不同的聚类方法或者对于不同的研究学者,聚类结果也不尽相同。
相比于基于监督学习的分类方法,基于非监督的聚类方法有它自己独特的优点[2]:首先,收集并标记大型样本集本身就是个费时费力并且低效的工作,有无数的工作量并且在我们并不一定能得到数据的类别属性;其次,待分类样本的性质会缓慢地随着时间的变化而变化,这种随时间变化的性质在无监督学习的情况下更容易得到,同时会提高机器学习的性能;再次,可以在聚类运行过程中提取出数据的一