基于深度学习的垃圾邮件检测

发布日期:2023年4月21日
基于深度学习的垃圾邮件检测 基于深度学习的垃圾邮件检测

本内容试读结束

下载后可阅读完整内容,立即下载

邮件是日常生活中的一种通讯工具,但垃圾邮件对用户造成严重困扰,因此改进垃圾邮件识别技术、提升其准确率和效率具有重要现实意义。在文本分类领域,深度学习有很好的应用效果。故文章提出了一种基于CNN的BiGRU-Attention模型,旨在充分利用CNN的特征提取能力和BiGRU的全局特征提取能力。引入注意力机制能够突出显示重要文本,前后共经过两层双向门控循环单元,从而更全面地提取邮件文本特征。实验数据选取Trec06c数据集,并与其他分类模型对比,结果表明,检测准确率达到91.56%。

当今社会,互联网的快速发展使得电子邮件在人们的日常生活中发挥了很大的功能,既可以提高工作效率、节约成本,又可以促进人们之间的交流和沟通。但同时,也有不少不法商人、不法之徒通过电子邮件做广告、散布不良信息,给人们的生活和工作带来了不必要的麻烦和困扰。用户经常会收到一些垃圾邮件,其内容毫无营养,有些包含一些恶意链接,可能会造成电脑中毒、网银被盗刷等危害用户安全的情况, 扰乱网络安全环境。

因此, 如何快速准确地检测邮件是否为垃圾邮件是值得研究的重大课题。

迄今为止,国内外学者对垃圾邮件的识别技术进行了大量的研究,也取得了良好的效果。当前的研究方法有两大类,一类是基于邮件发送来源检测的技术,通过分析判断邮件的发送者地址和网络IP 地址进行[1],包括黑白名单识别查询技术和反向DNS 技术等。第二种是根据邮件内容信息进行检测的技术, 将邮件的内容特征提取出来,然后将这些特征转化为向量形式,利用分类器对其进行训练,从而获得一个分类模型,例如朴素贝叶斯[2]、SVM、K 近邻[3]等算法。未知邮件再通过训练的分类模型得出该邮件的分类标签。近几年,深度学习发展迅速,在垃圾邮件检测领域,对卷积神经网络(Convolutional Neural Networks, CNN)模型的优化改进已经有了很大的进展。黄鹤等人[4]提出了基于Skip-gram 的CNN 模型, 并结合了Highway 网络,用低维度的特征向量反映文本特征,使得邮件分类模型的准确率得到提高。彭毅等人[5]提出了一种基于BERT_DPCNN 的文本分类模型。通过BERT 预训练模型获得文本向量,随后将其输入到DPCNN 模型中,以获得更多的语义信息,避免了梯度消失,从而提高了模型的分类性能。

目前,尽管已经有了很多垃圾邮件检测的方法,但是仍在某些方面需要改进,例如检测速度、检测准确率等。

CNN 是一种具备特征提取能力和数据降维能力的神经网络。

循环神经网络(Recurrent Neural Network, RNN)是一种用于处理序列数据输入的递归神经网络。之后,研究者们又提出了RNN 的一种变体:双向门控循环单元[6] (BiGRU)。BiGRU 层由两个GRU 组成,一个用于输入序列的前向处理,一个用于后向处理。这两个网络均与同一输出端相连,能够实现更完整的特征提取。GRU 相比LSTM,能提供更快的计算和更高的效率,并且两者的准确率相当。垃圾邮件检测需要从电子邮件中提取关键词,注意力机制(Attention)可以给电子邮件中的关键词分配高权重,并提取重要信息。本文所提出的基于CNN 的BiGRU-Attention 模型,综合了以上三种模式各自的功能与优势,并与其它模型进行了比较,得到了较好的结果,数据集选取了公开的Trec06c 邮件数据集。

2. 中文文本分类 本文中使用的垃圾邮件检测方法是基于对电子邮件文本内容的检测和分类,即基于文本的分类[7]。

对于文本的分类[8]的任务是处理一个未知类别的文件,并确定它属于哪个或哪些类别。在这个过程中, 使用一些已知的文本数据训练一个模型,来确定文本特征所对应的类别,训练好的模型再对其他文本进



相关标签