交互的特征是指那些分开考虑对目标集不相关或弱相关,但合在一起考虑却对目标集高度相关的特征。特征交互现象广泛存在,但找出有交互作用的特征却是一项具有挑战性的任务。本文旨在对基于聚类的FAST特征选择算法进行改进,在其基础上考虑特征的交互作用,首先去掉FAST的移除不相关特征的部分,接着加入交互权值变量,使得在移除不相关和冗余特征的同时,保留有交互作用的特征。为了对两个算法进行对比分析,我们选取了5个不同领域的16个公开数据集进行实证分析,并使用4种分类器对实验结果进行评估,包括C5.0、Bayes Net、Neural Net和Logistic,接着从选择的特征个数、算法运行时间和分类器的准确率3个方面对两个算法进行比较。实验结果表明,两者选择的特征个数相差不大,有时IWFAST甚至可以减少特征个数,同时IWFAST能提高分类器的准确率,尤其对于特征数量较多的情形,以及Game和Life领域。美中不足的是,IWFAST的运行时间较长,但仍在可接受的范围内。
特征选择是模式识别和机器学习中的数据预处理的一个步骤,在近些年来受到各个领域中诸多学者的关注。特征选择的目标,是从特征集合中选择一个尽可能小的特征子集,并且在表达原始特征时保留一个适当高的准确率。特征选择有很多优点,比如避免出现过拟合现象、提高数据的可视化、减少储存需求、减少训练时间、提高学习的准确率、提高结果的可理解性等[1]。
特征选择的方法可以分为四大类:Filter、Wrapper、Embedded 和Hybrid。Filter 方法是选定一个指标来评估特征,根据特征指标值来对特征排序,同时设定阈值,将达不到该阈值的特征去掉。这类方法只考虑特征X 和目标Y 之间的关联, 相对另两类特征选择方法Wrapper 和Embedded 计算开销最少。
Wrapper方法和Filter 不同,它不考虑特征X 和目标Y 直接的关联性,而是在添加一个特征后观察模型最终的表现来评估特征的好坏。它使用一个明确的分类器去评估特征子集,以不同的搜索策略下分类器的准确率来评价特征。这类方法的准确率一般较高,但是所选择的特征子集依赖于分类器的选择,计算复杂度较高,而且容易出现过拟合。Embedded 方法将特征选择与算法本身紧密结合,在模型的训练过程中完成特征的选择,具体来说,先使用某些机器学习算法对模型进行训练,得到各个特征的权值系数,根据系数的大小选择特征。Hybrid 方法是Filter 和Wrapper 的结合,它通过使用Filter 来产出一个特征子集,再运用Wrapper 来对该子集进行特征选择。在这四类方法中,Filter 方法因其具有普遍性而受到广泛使用,特别是在处理大数据的情形下。
在Filter 的特征选择算法中, 基于聚类的特征选择算法被证实了比传统的算法更为有效, Pereira et al.
[2]、Baker 和McCallum [3]以及Dhillon et al. [4]利用了词的分布聚类来减少文本数据的维度。在聚类分