考虑了特征协同作用的FAST特征选择算法的改进

发布日期：2017年4月30日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

交互的特征是指那些分开考虑对目标集不相关或弱相关，但合在一起考虑却对目标集高度相关的特征。特征交互现象广泛存在，但找出有交互作用的特征却是一项具有挑战性的任务。本文旨在对基于聚类的FAST特征选择算法进行改进，在其基础上考虑特征的交互作用，首先去掉FAST的移除不相关特征的部分，接着加入交互权值变量，使得在移除不相关和冗余特征的同时，保留有交互作用的特征。为了对两个算法进行对比分析，我们选取了5个不同领域的16个公开数据集进行实证分析，并使用4种分类器对实验结果进行评估，包括C5.0、Bayes Net、Neural Net和Logistic，接着从选择的特征个数、算法运行时间和分类器的准确率3个方面对两个算法进行比较。实验结果表明，两者选择的特征个数相差不大，有时IWFAST甚至可以减少特征个数，同时IWFAST能提高分类器的准确率，尤其对于特征数量较多的情形，以及Game和Life领域。美中不足的是，IWFAST的运行时间较长，但仍在可接受的范围内。

特征选择是模式识别和机器学习中的数据预处理的一个步骤，在近些年来受到各个领域中诸多学者的关注。特征选择的目标，是从特征集合中选择一个尽可能小的特征子集，并且在表达原始特征时保留一个适当高的准确率。特征选择有很多优点，比如避免出现过拟合现象、提高数据的可视化、减少储存需求、减少训练时间、提高学习的准确率、提高结果的可理解性等[1]。

特征选择的方法可以分为四大类：Filter、Wrapper、Embedded 和Hybrid。Filter 方法是选定一个指标来评估特征，根据特征指标值来对特征排序，同时设定阈值，将达不到该阈值的特征去掉。这类方法只考虑特征X 和目标Y 之间的关联，相对另两类特征选择方法Wrapper 和Embedded 计算开销最少。

Wrapper方法和Filter 不同，它不考虑特征X 和目标Y 直接的关联性，而是在添加一个特征后观察模型最终的表现来评估特征的好坏。它使用一个明确的分类器去评估特征子集，以不同的搜索策略下分类器的准确率来评价特征。这类方法的准确率一般较高，但是所选择的特征子集依赖于分类器的选择，计算复杂度较高，而且容易出现过拟合。Embedded 方法将特征选择与算法本身紧密结合，在模型的训练过程中完成特征的选择，具体来说，先使用某些机器学习算法对模型进行训练，得到各个特征的权值系数，根据系数的大小选择特征。Hybrid 方法是Filter 和Wrapper 的结合，它通过使用Filter 来产出一个特征子集，再运用Wrapper 来对该子集进行特征选择。在这四类方法中，Filter 方法因其具有普遍性而受到广泛使用，特别是在处理大数据的情形下。

在Filter 的特征选择算法中，基于聚类的特征选择算法被证实了比传统的算法更为有效， Pereira et al.

[2]、Baker 和McCallum [3]以及Dhillon et al. [4]利用了词的分布聚类来减少文本数据的维度。在聚类分