本文针对流程对象采样数据集,提出了一种基于统计极值的流程对象环节间时序计算算法,同时通过理论分析证明了该算法的正确性。该算法通过取数据的特征点,计算环节间特征点的时间距,并通过统计方法,计算出流程对象任意两环节间的延迟时间,进而得到多环节间的时序关系。通过实际流程工业采样数据集测试,可基本准确的求得任意环节数据之间的延迟时间距以及各环节间的时序关系。
时间序列数据是一种常见的数据表现形式,经常出现在各个领域中,例如金融、气象、工业生产、科学实验等。通过数据挖掘技术可与从大量的时间序列数据中提取出宝贵的知识用于过程优化和决策支持等方面。目前,流程工业生产中普遍应用了DCS 分布式控制系统,该系统可实时采样流程工业生产过程中各个环节的状态值,形成时间序列数据。流程工业是由多个生产环节组成的复杂系统,系统中各环节相互影响。
在流程工业中各个环节之间的影响大多是单环节依次相关的, 前一环节依次影响下一环节, 即前一环节的状态变化影响下一环节的状态变化,同时,这种状态的传递存在一定延迟。这种特性反映在采样数据集中表现为各个时间序列之间存在延迟相关性,或者说各环节间存在一定的时序关系。但由于某些客观因素,在采样数据集中无法直接反应出各个环节间的时序关系,而环节间的时序关系在针对流程工业等的数据挖掘中是非常重要的。
计算各环节间的时序关系主要通过计算两两环节时间序列间的延迟时间,再根据环节间的延迟时间进行时序调整得到。目前已有的时间序列延迟时间计算方法大多是基于Pearson 提出的相关系数计算的。
该方法主要通过计算两个时间序列在不同给定延迟时的相关系数,最终选取相关系数最大时的延迟作为两时间序列之间的延迟时间。这种方法可使用于不同特征的时间序列数据,并可判断出两时间序列是否具有延迟相关性,但由于需要不断尝试计算不同延迟下的相关系数,所以当数据集规模较大时计算耗费资源较多。
本文针对流程工业生产特点,考虑其采样时间序列的特征,提出了一种基于流程工业采样数据集的环节间时序计算算法,通过计算时间序列间的延迟时间获得流程工业环节间的时序关系。该算法基于统计极值的方法得到环节间的时序关系,将时间序列的极值看作是环节状态的一次变化,通过统计两时间序列各个极值点之间的延迟时间计算法出两时间序列间的延迟。算法主要包括3 部分:1) 时间序列的极值点的计算;2) 根据极值点计算时间序列间的延迟时间;3) 根据各环节时间序列间的延迟时间得到环节间的时序关系。通过理论分析,本文证明了该算法在一定条件下的正确性。实验结果显示,对于流程工业采样数据集,该算法可准确计算出流程工业各环节间的时序关系。
本文的组织结构如下:在第2 章中将介绍目前关于时间序列数据在延迟时间计算等方面的最新研究进展。在第3 章中,给出流程对象的相关定义。在第4 章中将详细介绍算法。在第5 章将通过理论分析