近年来,恶意软件的数量不断增加,为用户带来了严重的安全隐患。为了避免主机系统受到恶意软件的侵害,提高检测的准确率,提出一种基于主成分分析(Principal component analysis, PCA)降维和SE-ResNet-VIT集成模型的恶意软件检测方法。由于软件数据信息具有高维度,多噪点的特征,通过PCA对待检测软件数据进行主成分提取,去除样本数据中的冗余特征项。SE-ResNet-VIT模型是将改进为双线性融合机制的SE-ResNet和VIT (Vision Transformer)中的编码器相结合的集成模型。改进的SE-ResNet模型能够从局部特征中提取更多信息,并通过组合这些特征来提高模型的表示能力。VIT模型能够通过注意力机制来学习数据之间的依赖关系,并能够处理长序列数据。该方法通过结合SE-ResNet和VIT,以两种不同的方式提取特征,能够更准确地捕捉软件的语义信息,从而提高恶意软件检测的准确性。在Ember数据集上进行了对比实验,实验结果表明,该方法的准确率分别为97.05%和98.45%,并与现有的多种检测方法进行对比,在准确率方面分别提高1.94%~5.95%,该方法有更好的检测准确率和泛化能力。
在过去的十年里,互联网实现了飞速的发展,但与此同时,恶意软件及其应用程序也井喷式的增长。
恶意软件作者通常会诱导用户下载恶意文件,其中恶意文件包括病毒、特洛伊木马、蠕虫、rootkit、广告软件、勒索软件和一系列恶意的可执行程序。恶意软件会有目的性获取用户信息、窃取用户财产、破坏用户体验和锁定用户主机。根据McAfee2021 年度报告,相比2020 年,2021 年的恶意软件开发量大幅增加,平均每分钟会新增588 个恶意软件[1]。国家互联网应急中心2021 年上半年,捕获恶意程序样本数量约2307 万个,日均传播次数达582 万余次,涉及恶意程序家族约20.8 万个[2]。对此,为了有效保障人民的财产和数据信息安全,有效防止恶意软件入侵,所以长期以来,对于恶意软件检测的研究一直以来都是网络安全领域中的热点之一。
恶意软件检测有两种基本的分析检测方法:静态分析检测和动态分析检测。
静态分析检测是在不执行恶意软件程序的情况下对其进行反编译,并对哈希值、操作码、N-gram、PE (Portable Executable)头信息和字符串等信息进行特征提取,建模分类。而动态分析检测是通过创建虚拟环境执行恶意软件程序并捕获API 调用,注册表项更改、新日志条目和网络活动等信息进行特征提取,建模分类。本文是基于静态分析检测方法对反编译后的数据进行降维处理,训练分类。