基于自注意力机制改进GCNN模型的图书标签分类研究

发布日期:2024年3月20日
基于自注意力机制改进GCNN模型的图书标签分类研究 基于自注意力机制改进GCNN模型的图书标签分类研究

本内容试读结束

下载后可阅读完整内容,立即下载

针对卷积神经网络聚焦于局部特征,不足以捕捉文本中长程依赖关系的问题,本文提出了一种基于CNN和自注意力机制改进的双通道图书标签分类模型(Gate Convolution Neural Network based on self- attention mechanism, GCNN-SAM)。该模型使用skip-gram将词嵌入成稠密低纬的向量,得到文本嵌入矩阵,分别输入到门卷积神经网络和自注意力机制,再经过逐点卷积,将两个通道中经过特征提取层得到的特征进行融合用于图书标签分类。在复旦大学中文文本分类数据集上进行对比实验,相较于SCNN、GCNN和其它改进的模型,测试集准确率达到96.21%,表明了GCNN-SAM模型在图书标签分类上具有优越性。同时,为验证GCNN-SAM模型的有效性,消融实验结果表明GCNN-SAM模型相较于CNN、GCNN和CNN-SAM在分类准确率上分别提升了5.9%、3.19%和3.66%。

图书标签分类广泛应用于图书目录分类、推荐系统、信息检索和数字化等图书情报领域中[1],其目的是将图书自动分配到一个或多个已定义好的类别中,可以帮助读者更容易地找到相关主题的书籍。图书标签是指添加到图书中的一组关键词或元数据,用于描述该图书的主题、内容、类型等丰富的语义信息[2],然而由于图书标签的质量参差不齐,如标签语义信息与图书主题不一致,标签重复使用,同义、近义关系频现等[3],当前大部分以《中国图书馆分类法》作为标签,主要是以基于特征工程和分类器的传统机器学习与基于自动编码器进行特征提取的深度学习文本分类两种方法[4]。

机器学习技术主要分为两步。第一步,需要手工对文本中的特征进行标注,对于图书标签分类,可以通过挖掘图书的元数据、目录、标签等信息,提取与图书内容和主题相关的特征。第二步,需要将提取的特征送入分类器,使用分类算法对图书进行分类。主流的分类算法有朴素贝叶斯分类器[5]、支持向量机[6]和多层感知机[7],这些方法的优势在于计算量小,但往往都假设特征之间是独立的,无法利用特征之间的非线性关系将深层的重要语言特征纳入考量,例如句法歧义、句法多样性和主题适度等。由于CNN 在图像分类任务中表现良好,因此Sergey 提出了使用一个简单而有效的CNN 神经网络架构进行图书标签分类,这将有助于更好地组织和检索文本数据。

目前, 深度学习模型已经成为解决图书标签分类问题的主流基础模型, 许多学者将基于CNN 改进的深度学习模型应用到图书标签分类中,不仅实现自动化特征提取,适应不同的输入尺寸和形状,还扩展到更大的数据集和更多的标签分类任务中。

Wang 等人首先使用卷积神经网络(CNN)对文本使用手工特征提取器提取关键特征,使用循环神经网络(RNN)对提取的特征进行序列建模,最后引入注意力机制来加强模型对重要特征的关注度[8]。Zhao 等人提出在TextCNN 的基础上增加一个层次化结构的自注意力卷积神经网络(HCNN-SAM), 将句子划分为单词和短语的序列, 并使用TextCNN对每个序列进行特征提取, 再通过层次化的自注意力机制以捕捉关键词和短语的文本特征[9]。相比于传统的基于序列模型的文本标签分类方法,Peng 等人提出基于门卷积神经网络(GCNN)使用文本数据的图来表示文本之间的关系,能



相关标签