基于LSH技术的试题相似度检测方法

发布日期：2020年4月24日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

试题内容重复率是评价试题库及试卷质量的重要指标之一，为了快速找出题库中的相似试题，本文主要

试题内容重复是影响试题库及试卷质量的重要因素之一，所以对相似试题的检测和去重就尤为重要。

目前相似试题的发现方法主要使用自然语言处理(NLP)中的文本相似性检测方法。

这些方法大致可分为以下几类： • 单词共现方法(Word co-occurrence)。

• 基于词汇数据库(lexical database)的相似度方法。

• 基于词向量(word vectors)的递归神经网络和深度神经网络方法。

单词共现方法通常用于识别文本数据中的重要部分[1]。该方法具有明显的缺点，例如： • 它忽略了句子的词序。

• 它不考虑单词在句子上下文中的含义。

但是它具有以下优点： • 可匹配任何文本。

• 能成功地从中提取关键字。

词汇数据库方法，使用具有在树状结构中编译的词、含义和与其他词关系的预定义词层次来计算相似度[2]。在比较两个词时，它考虑了词之间的路径距离以及包含者在层次中的深度。包含者指的是与被比较的两个词有关的相对根节点。它还使用单词语料库来计算单词的“信息内容”，这会影响最终的相似度。该方法具有以下局限性： • 在计算相似度时不考虑单词的适当含义，而是选择最佳匹配对，即使单词在两个不同的句子中的含义完全不同。

• 来自一个语料库的词的信息内容与另一个语料库中的词的信息内容不同。

近年来，基于神经网络的模型在语义相似度有了很大的改进[3] [4] [5] [6] [7]。其中乐雨泉等[8]提出了一个称为ACV-tree 句子建模方法。这个方法可以看成一种通用的句子建模框架，此框架试图将句法知识(syntactic information)、语义信息(semantic information)、注意力权重机制(attention weight mechanism)合并到一个统一的结构中来吸收它们的优点。解决了自然语言处理中句子建模的问题。梁圣[9]提出了循环神经网络用于计算试题相似度的方法，对比了不同词向量维度以及LSTM 隐含层神经单元个数对相似度计算结果的影响。田星等[10]提出了一种基于词向量的Jaccard 句子相似度算法，该方法首先通过训练将每个词语映射为语义层面的高维向量，然后计算各个词向量之间的相似度，高于阈值α 的作为共现部分，