故障诊断是一种广泛应用于企业的工程技术,有效的故障诊断可以为企业节省大量的人力和物力的开销。传统的文本故障诊断大多采用余弦相似度算法,当匹配出错、数据靠后以及数据量较大时,往往无法满足客户的实时需求。因此,本文采用支持向量机算法对用户输入的故障描述文本语句进行粗划分,筛选出具有相似特征的大类。在此基础上,依据粗分类结果,进一步使用余弦相似度算法进行精确匹配,从而选取匹配相似度最高的故障产生原因和防治措施以反馈客户。实验结果表明,本文所提的故障诊断算法可以有效地进行故障诊断,为企业带来可观的经济效益。
近年来,由于计算机技术的快速发展,故障诊断技术广泛的应用于各大企业,但还未取得显著性的进展。有效的故障诊断技术可以提升企业的竞争力,为企业带来可观的经济效益。因此,研究故障诊断技术是非常有必要的。
现在大多数故障诊断的研究都是基于图像的,基于文本的故障诊断研究还是相对较少,本文主要借鉴的是智能医疗诊断的方法。
传统的智能故障诊断方法的思想是以疾病的数值表示与专家的推理相结合, 包括贝叶斯公式、模糊数学等方法[1] [2]。接着机器学习的方法被成功地应用到智能医疗诊断领域[3] [4] [5]。2007 年,何凯[6]将支持向量机方法运行在智能医疗诊断系统中的应用与研究中,并取得了良好的效果。然而,当类别很多时,单纯地使用支持向量机算法需要更多的训练样本。2015 年,林予松等[7]基于VSM 权重改进算法,以及徐奕枫等[8]在2017 年做了TF-IDF 权重改进算法研究,实现了智能导医系统。
当匹配的数据条目比较靠后,该算法将十分耗时。最近,深度学习在文本领域取得很大的进步[9]。2019年,陈实[10]将神经网络应用在中医诊断中,很大程度地提升了准确性和降低了时间成本。
在实际场景中,故障诊断通常具有较强的领域相关性,且故障诊断的文本数据收集较为困难,成本较高。本文使用的数据集主要来源于企业网站报修单上的实际用户故障描述这种类型的文本数据,以期在企业的实际应用中减少故障诊断的时间、人工成本以及提升企业竞争力。由于收集的故障数据集相对较小,且故障数据文本一般都是短文本,在100 字以内。所以本文暂未选用深度学习算法。综合考虑数据集大小以及故障诊断的需求和现状, 本文主要以余弦相似度算法为主要框架[7] [8]。
考虑到当匹配出错、数据靠后以及数据量较大时,单一使用余弦相似度算法往往无法满足客户的实时需求。本文提出首先采用SVM 算法对用户输入的故障描述文本语句进行粗划分,筛选出具有相似特征的大类[11] [12] [13]。在此基础上,依据粗分类结果,进一步使用余弦相似度算法进行精确匹配[8] [14],从而选取出匹配相似度最高的故障产生原因和防治措施以反馈客户,帮助客户自助诊断常见的故障问题[15] [16]。
本文的结构介绍如下,第2 部分给出了文本数据预处理以及向量化工作。在第3 部分介绍基于SVM的故障粗分类算法的具体实现。在第4 部分介绍基于余弦相似度的故障精确匹配。在第5 部分将介绍算