基于WIG-GA特征选择算法的恶意代码检测方法

发布日期:2018年3月27日
基于WIG-GA特征选择算法的恶意代码检测方法 基于WIG-GA特征选择算法的恶意代码检测方法

本内容试读结束

下载后可阅读完整内容,立即下载

针对当前恶意代码检测中特征高维度问题,本文提出一种基于引入频率权重因子的信息增益算法和遗传算法相结合的恶意代码特征选择方法,该方法可以选择出能够有效区分正常代码与恶意代码的最优特征子集,实现特征的降维。该方法利用遗传算法较强的全局搜索能力进行特征子集的搜索,同时采用基于频率权重因子的信息增益算法作为特征子集的适应度评价,最后在当前流行的多种分类方法中进行学习和验证。通过实验表明:该方法可以有效的降低恶意代码检测中特征的维度,有效的提高了分类器的学习效率和精度。

随着互联网的发展,恶意代码也在迅速增多[1],变种的未知恶意代码给社会以及人们的日常生活带来的威胁也随之加剧。恶意代码包括木马、蠕虫等多种类型,可以窃取人们信息,攻击网络,破坏基础设施。面对当前恶意代码的泛滥,仅靠人工的逆向检测分析是远远不够的,因此数据挖掘与机器学习技术被应用到恶意代码检测中,进行恶意代码的自动化检测。机器学习恶意代码检测模型首先是要进行代码的特征提取,然后将提取的特征供分类器学习,目前有效的特征提取方法是采用N-gram 模型[2]提取字节序列特征,已经被广泛应用在了恶意代码检测中,但是提取后的特征维度很高,不利于分类器的学习。

本文提出一种基于引入频率权重因子的信息增益算法和遗传算法相结合的恶意代码特征选择方法, 该方法可以选择出能够有效区分正常代码与恶意代码的最优特征子集,实现特征的降维。

2. 相关工作 特征选择的过程是指从提取的特征集中搜索到能够代表特征空间的特征子集,根本选择过程是否依赖分类器可以将特征选择方法分为两大类过滤类和封装类。过滤类选择方法是指通过一定的评价标准, 将评价指标较低的特征去除,达到降维的目的,常用的方法有信息增益[3]、增益比、文档频率等文本特征选择算法。过滤类的特征选择算法跟后续的分类算法分开,参数调整比较简单,因此通用性比较高, 适合于大量数据的特征降维操作,但是通过评价标准进行特征选择不能确保特征空间的完整性,容易造成特征的缺失。封装类的选择方法依赖于后续的分类算法,需要通过不断调整分类算法的参数,才能达到一定的效率,此方法虽然分类精度较高,但是不断调整参数计算量大,性能较差。文献[4]综合考虑信息增益和特征规模进行特征选择,缩小了特征的维度,在一定程度上提高了分类器的效率和准确率,但是仅仅依据信息增益值的大小进行排序,会造成特征空间的不完整。文献[5]通过改进肯定选择分类算法进行恶意代码的检测,但是在特征选择上仍然是采用的通用的信息增益算法,该方法通用性差。文献[6]



相关标签