随着信息技术的迅猛发展,产生了大量的数据,这些数据体量巨大、形式多样、产生迅速、价值密度低、商业价值高。如何使这些数据对人类社会的进步产生积极影响是一个难题。粗糙集理论可以直接对数据进行降维处理,发现数据中的隐含知识,促进社会进步。经典粗糙集理论基于单个二元关系,缺乏灵活性和普遍性,基于多个二元关系的粗糙集理论可以解决上述难题,因此,本文主要针对广义多粒度粗糙集进行了研究,引入元启发式算法,提出通过元启发式算法(蚁群算法)实现广义多粒度粗糙集特征选择算法。通过实验结果看出本文所提算法可以对数据集起到降维效果且得到的特征子集的分类精度和原数据集基本保持一致。
粗糙集理论[1]是一个用于处理不确定的数学工具,经典粗糙集理论建立在单个二元关系上,不能用于处理具有多个二元关系的决策系统。Qian 等[2]提出了基于多个二元关系的决策系统,称为多粒度粗糙集理论。多粒度粗糙集模型分为乐观多粒度粗糙集模型和悲观多粒度粗糙集模型,由于乐观多粒度粗糙集模型的构造过于放松,悲观多粒度粗糙集模型的构造过于严苛,因此,Xu 等[3]提出了广义多粒度粗糙集模型。一些学者针对广义多粒度粗糙集理论进行了深入研究。Qian 等[4]构造了一个广义层次决策表, 并将多粒度和序贯三支决策相结合, 提出了广义层次多粒度序贯三支决策模型。
Xu 等[5]通过考虑类与概念之间的相对和绝对定量信息, 提出了两种广义多粒双定量决策理论粗糙集模型。
Xu 等[6]针对局部广义多粒度邻域粗糙集模型,提出了动态更新近似的方法。张先韬等[7]给出了广义多粒度粗糙集约简的一些基本性质,给出matlab 计算的过程及计算实例。
在已有研究中,广义多粒度粗糙集特征选择的研究并不完善,未有人通过元启发式算法进行广义多粒度粗糙集特征选择算法的研究。元启发式算法是启发式算法的改进,由于其有较好的泛化性、较强的通用性,现已被广泛应用于各个领域。因此,本文首先介绍了广义多粒度粗糙集的相关概念,然后详细介绍了蚁群算法的基础知识, 在此基础上提出通过元启发算法(蚁群算法)实现对广义多粒度粗糙集特征选择算法的研究。实验结果表明,本文所提的算法可以对高维数据进行降维,并且得到的特征子集并没有降低原数据集的分类精度。
2. 基本概念 四元组(), , , DSU ATCD V f==为决策系统,其中U 为论域,C 为条件属性集,D 为决策属性集, V 为kaAT∈的值域集,f 为映射函数。
定义1 [8]给定决策系统(), , , DSU ATCD V f==,对XU⊆,粒度集{}12, , , mPP PP=, ()1iPCim⊆≤≤,通过特征函数( )iPXSx 描述X 和等价类[ ]iPx之间的包含关系,特征函数( )iPXSx 定义为: