火灾对全球人民的生命财产安全造成了巨大的威胁。在火灾检测领域中,使用计算机视觉技术检测火灾对保障人民的生命和财产安全具有重要意义。针对经典的火灾识别方法无法高效地利用火焰运动特征的问题,提出基于通道特征增强的Video Swin Transformer (Video Swin Transformer based on Channel Feature Enhancement, VST-CFE)网络。VST-CFE主要包含Video Swin Transformer (VST)块和通道特征增强(Channel Feature Enhancement, CFE)块。为了利用在三维窗口划分时VST块丢失的火焰运动信息,设计了CFE块。通过建立通道信息的语义模型,CFE块增强了描述火焰运动的能力,从而提升了VST-CFE网络识别火焰的准确率。在LVFD数据集上开展大量的实验,实验结果表明VST-CFE优于基准方法VST。在该数据集上,VST-CFE的F1分数是88.16%,比基准方法VST的F1分数提高了1.75%。
近些年来,火灾在全球各地频发,对人民的生命和财产安全造成巨大的威胁。高效地检测火灾有利于保障人民的生命和财产安全。在自然语言处理领域,Transformer [1]取得了巨大的成功。在图像处理领域,Swin Transformer [2]获得了优异的成绩。在视频识别领域,Swin Transformer 的变体Video Swin Transformer [3] (VST)有着强大的视频识别能力。
VST 使用基于多头自注意力的3D 窗口(3D Window based Multi-head Self-Attention, 3D W-MSA)使得多头自注意力(Multi-head Self-Attention, MSA)的计算集中在3D 窗口中。该操作减少了全局MSA 计算带来的高额计算量。VST 使用基于多头自注意力的3D 转换窗口(3D Shifted Window based MSA, 3D SW-MSA)将窗口之间的信息关联, 使得在计算量减少的同时不丢失3D 窗口之间的关联信息。
这种高效的注意力计算方式使得基于Transformer 架构的VST 网络能够高效地工作在通用视频识别领域。但是,随着环境、燃烧物化学性质等的变化,火灾中火焰的形状、颜色、运动状态等也会改变。VST 缺乏对火焰这种特殊物质的识别能力。
为了解决上述问题,本文提出一个基于通道特征增强的Video Swin Transformer (Video Swin Trans-former based on Channel Feature Enhancement, VST-CFE)网络。
该网络主要包含VST 块和CFE 块。
在LVFD数据集上开展大量的实验,实验结果表明VST-CFE 优于基准方法VST。此外,VST-CFE 的F1 分数是88.16%,比基准方法VST 的F1 分数提高了1.75%。本文的主要贡献如下: 1) 为了利用在三维窗口划分时VST 块丢失的火焰运动信息, 设计了CFE 块。
通过建立通道信息的语义模型,CFE 块增强了网络描述火焰运动的能力。
2) 提出基于Swin Transformer 架构的VST-CFE 网络来识别含有火灾的视频。
在LVFD 数据集上的实验证明VST-CFE 优于基准方法VST。
2. 相关工作 近些年来,从事火灾检测的研究者在火灾检测领域中探索出一系列火灾检测的方法。这些方法的提出促进了火灾检测领域的快速发展。