针对现有异常表示方法对视觉感知层级关系描述能力的不足,基于生物视觉感知编码特性启发,本文提出一种基于运动外观多通道层级ICA编码模型,实现复杂场景中的异常检测任务。首先,对现有的生物视觉层级编码框架,进行三级逐层学习拓展,采用ICA统计方法提取层内视觉感知编码模式,利用HMAX机制实现层级信息传递。其次,借助视觉双通道处理机制,各通道独立完成三层编码模式学习,随后联合双通道特征构建异常模式表达,最终,利用单类支持向量机模型对正常和异常情况进行判定。在UCSD数据集上,分别验证了本文方法的运动感知编码特性和异常检测的性能,实验结果能够说明本文异常模式表达优于现有的手工设计特征,以及深度学习特征。
视频场景分析与理解研究已经吸引了来自计算机视觉领域众多研究者的关注, 其致力于研究新技术、新方法去更精确快速地分析、理解场景内容,从而更有效地协助监控人员获取准确信息以及处理突发事件,并最大限度地降低误报漏报,起到监督管理的作用[1]。视频场景中的异常事件检测是其中一项重要的研究内容,同时也是研究的热点和难点。
异常检测最经典的做法通常是基于训练数据学习描述正常运动模式的模型,然后通过评估新视频中的运动模式偏离该模型的程度来判断其是否属于异常运动。如Hu 等人[2]采用多目标追踪算法提取正常运动轨迹特征,然后学习其统计分布,充分考虑时空信息用于异常检测。Mehran 等人[3]首次采用表达行人交互力信息的社会力模型(Social Force Model,SFM)来检测视频中的异常行为。此外,基于多尺度光流直方图的稀疏编码模型[4]也成功用于异常检测,该模型采用稀疏重构代价(Sparse Reconstruction Cost, SRC)为判断准则。Li 等人[5]采用混合动态纹理模型(Mixture Dynamic Texture,MDT)对外观、运动以及空间尺度特征进行建模,提出了时空异常的联合检测器。上述方法虽然能够实现异常检测,但是其采用的是手工设计特征,该类特征需要专业的先验知识,而这在复杂的视频场景下难以实现,也限制了检测性能的进一步提升[6]。
近年来,深度学习方法被成功应用于各项视觉任务,证明了其强大的编码表达能力。深度学习本质思想也是以人类大脑对视觉信息的层次处理方式为基础,构建多层次学习模型进行学习。如蔡瑞初等人[7]提出了一种基于多尺度时间递归神经网络的人群异常检测和定位方法。Xu 等人[6]则提出外观和运动深度网络(Appearance and Motion Deep Net,AMDN)学习运动、外观以及联合信息的特征表达用于异常检测。该方法采用堆栈去噪自动编码器网络进行特征学习,并提出双融合策略,分别是输入端的运动外观信息融合和输出端的异常得分融合,其中,前者融合是为了充分考虑外观和运动信息之间的互补性,后者融合是为了得到运动区域的最终异常得分。但是,在异常检测任务中,这些深层框架仅仅被看作是输