提取时空特征的无监督时间序列异常检测

发布日期：2022年3月21日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

为解决web应用程序及服务中的异常自动发现问题，针对互联网运维中常用监控指标的异常检测提出了一种基于深度挖掘时空特征的时间序列异常检测模型。考虑到web服务场景中异常发现的时效性要求，模型加强了编码器对空间信息的建模能力。模型使用基于VGG+Bi-LSTM的编码器用于挖掘时序数据中时空特征，使用全连接神经网络与Bi-LSTM构成的解码器重构输入数据。异常判定模块基于重构结果与原始输入的偏离程度计算异常得分与发现异常。这是一种无监督、不需要对异常数据进行分布假设，是纯数据驱动的方法。基于重构输入数据的方式使其拥有发现不可预见错误的能力。充分挖掘时空特征使模型能够及时准确地发现异常。实验结果表明，模型相较于目前常用的时间序列异常检测模型具有更高的异常识别准确率。在公开数据集上的实验结果表明，模型召回率提高6%，F1-score提高0.04。

互联网公司为确保提供的服务稳定运行，需要密切监控web 应用程序的各种KPI [1]，从而及时发现服务的异常，给相关人员发送告警信息。智能运维(AIOps, artificial intelligence for IT operations)技术旨在通过人工智能和机器学习技术使web 服务能够高效地构建和大规模运行。AIOps 可以帮助实现更高的服务质量和客户满意度、提高工程生产力和降低成本[2]。时间序列异常检测算法常被用来进行指标序列的异常自动发现，是AIOps 技术中一种重要的算法。常用的监控指标包括业务指标(如请求数、响应率、平均响应时间、调用成功率等)与机器指标(CPU 使用率、内存/磁盘占有率等)。这些KPI 的波动特征具有多样性。KPI 波动有表现为周期型的，有表现为稳定型的，也有表现为不稳定的，持续波动型的。

随着微服务架构的发展和广泛应用，web 服务的规模变得更大，业务系统的复杂性也越来越高。这使得监控指标流量巨大、异常比例低、异常种类多样。以上特点对于互联网运维场景下的KPI 异常检测算法提出了如下要求：异常检测算法应具备发现不可预见错误的能力；需要使用无监督算法，数据量巨大使得标注成本成倍提高，数据特征的频繁变化使标注价值降低；对于异常发现的时效性具有较高要求，应在引起用户感知之前发现异常，不然异常发现将失去意义。

为解决上述问题，本文提出了一种构建自动编码器重构输入数据的时间序列异常检测算法。该方法对于输入的时间序列数据进行重构，高重构误差可能意味着异常。这是因为该方法使用正常时间序列训练模型，与可预见的正常数据相比模型将无法很好地重建异常数据的不可预见的模式。这使得该方法拥