传统工业过程的故障诊断使用的数据集一般是工业过程数据,即传感器数值数据,且近年来工业过程故障诊断在精度上遇到了瓶颈,而视频数据的出现为工业过程的故障诊断提供了新的方向,因此本研究提出了一种基于双流Swinc Transformer视频分类的工业过程故障诊断模型。在该方法中,为了捕获视频的时间特征和空间特征,本研究首先在Swin Transformer的Swin Transformer Block中加入了3D卷积模块,构建了Swinc Transformer深度学习模型。随后,为了进一步捕获视频的时间特征,使用Swinc Transformer作为主干网络,引入双流网络,将光流图像与RGB图像作为输入。最终,为了更好的将光流特征与图像特征融合,引入了交叉注意力机制(CAM),以自适应的分配光流与RGB图像特征权重。采用PRONTO基准数据集对该方法进行验证,实验结果表明,本研究中提出的双流Swinc Transformer方法相较于其他视频分类模型具有较好的分类性能,同时,相较于普通工业过程数据,视频数据在故障诊断精度方面也更具优势,其分类精度值为95.26%。
工业生产过程日益集成化、多样化、复杂化,一旦发生故障,会发生十分严重的经济损失和社会安全问题。为了维持工业生产过程的安全稳定运行,实现精确的工业过程的故障诊断是一直以来的研究重点[1]。
传统故障诊断方法一般采用基于知识的方法,然而该方法中的数据库并不具备特异性,因此在故障诊断过程中存在不适用性,且该方法要求工作人员具备相应的专业知识技能,要求较高。基于数据驱动的方法相较于传统故障诊断的方法,不需要建立复杂的数学模型,也不需要准确的先验知识,对于处理高维度的数据具有很大的优势,适用于复杂的工业过程,附加成本低,易维护[2]。随着信息平台的不断发展,一方面,工业过程中数据量急剧增加,另一方面,数据类型也朝着多元化发展,因此数据具有多源异构的特点。大量的数据为传统的工业过程故障诊断转为由数据驱动的故障诊断提供了可能。传统基于数据的工业过程故障诊断使用的数据集一般是工业过程数据,即传感器数值数据,且近年来工业过程故障诊断在精度上遇到了瓶颈,因此视频监控数据的出现为工业过程的故障诊断提供了新的方向。
在视频故障诊断分类领域,起初,研究人员将图像分类方法应用到视频分类中,Andrej Karpathy [3]等人通过将视频分帧然后利用二维CNN 方法对视频进行分类。N Davari [4]等人从配电线路的视频中提取帧,使用Faster R-CNN 在每一帧中检测电源设备,然后在整个视频帧中对其进行跟踪,然后,使用双流充气3D 卷积(Inflated 3D ConvNet, I3D)来分别识别每个设备的图像中的电晕放电,确定初始故障严重程度。Ji Lin [5]等人则通过将部分信道沿时间维进行移位,便于相邻帧之间的信息交换,提出了时间转移模块(Temporal Shift Module, TSM)。Mehmet Karakose [6]等人通过改进的ViT 对火车故障铁轨进行分类, 实现了在线识别铁轨之间的故障类别。