融合主题模型和图神经网络的无监督文档聚类模型

发布日期：2022年7月26日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

TextING (Inductive Text classification via GNN)模型是一种流行的图神经网络文本分类方法，其为每个文档构建词共现文档图，基于GCN (Graph Convolutional Networks)在所有文档词图上学习文档表示，进而通过监督的方式训练文档分类模型。但该方法需要大量文档类别标签，且基于词图的文档表示不能充分学到整个文档集合的全局特征。针对此问题，提出一种无监督的文本分类模型。该模型首先利用ETM (Embedd Topic Model)主题发现模型学习包含全局词特征的文档表示，并对ETM学到的文档主题表示进行Kmeans聚类作为文档的伪类标，再利用TextING训练文档分类模型。在真实文档数据集上的结果表明该方法比主流无监督文档聚类准确性高。

当今社会正处于数据日益呈爆炸式增长的时代，从如此庞大的数据中发掘出反映出的现实问题的知识具有重要的意义。文本分类是一种典型的知识发现任务，传统的文本分类方法，比如贝叶斯、K 近邻和支持向量机等。这种方法主要依赖于人工提取的文本特征，再利用浅层模型实现文档的分类。

近年来，深度学习技术利用神经网络自动提取面向任务的文档特征，用于文档分类。基于图神经网络的方法可充分利用文本的关系学习文档表示，更好地用于文档分类。TextGCN [1]利用图神经网络对文本进行分类，解决了长序列和非连续词的交互问题，它为数据集构建成一个图，从全局学习节点特征，然而它在模型训练是需要庞大的参数和极大的空间和内存消耗，容易产生显存爆炸和梯度爆炸的问题。

Text-level-gnn [2]解决了TextGCN 内存消耗过大和泛化性能差的问题，它为每个文档单独的构建图来学习节点特征，但由于在构图时对于每队单词之间的边都是固定的，并不对所有单词之间具有适应性且因为从全局角度构图导致其在训练时的数据集中必须包含测试文件。TextING [3]考虑了每个文档细粒度的交互信息，为每个文档建立图从局部学到词节点特征，为每个文档计算文档级的向量表示用于学习文档分类模型，尽管该模型在构图方面有了很大改进，但其在数据集选取方面有很大限制，只有有标签数据集才能为其所用。

TextING 文本分类模型训练需要提供文档标签来指导模型的训练，而现实的数据集大多都是没有标签的。主题模型ETM [4]能够从全局学到每个文档的主题表示，为得到更好的文档类别标签提供了更有效的特征表示。因此可以利用基于主题表示的文档聚类解决数据无标签问题，提出了一种融合TextING和ETM 的文档聚类模型——TextING_ETM。其利用ETM 学习每个文档的主题向量，通过聚类算法Kmeans [5]对主题向量进行聚类[6]生成类标以此作为文档的伪标注，TextING 中利用伪标注对模型参数进行指导学习到文档的表示，以此保证同时利用了单词的局部和全局的信息来进行无监督的文本分类。

2. 文档聚类模型TextING_ETM 文档聚类模型——TextING_ETM 框架如图1 所示。首先利用ETM 主题模型从词的全局角度学习数