时空卷积神经网络是行为识别的主流方法之一,但传统时空图卷积神经网络在空间特征聚合存在数据冗余与时间特征提取不充分的问题,针对该问题该文提出了一种时空注意力深度增强差分图卷积网络(ST-DEdGCN)模型。首先,在空间上通过深度增强差分图卷积(DEdGC)动态地学习不同通道中节点拓扑与节点梯度信息,有效地聚合不同通道中的关节特征。其次,通过时空卷积模块在时间维度上对全局时间信息进行建模,得到高效的序列特征信息。最后在NTU RGB + D 60和NTU RGB + D 120两个数据集进行了实验,实验结果表明时空注意力深度差分图卷积网络模型在空间特征的有效聚合和时空信息的有效提取方面优于当前主流方法,为行为识别及其相关研究提供了新的技术途径。
人体行为识别是近年来深度学习与视觉分析领域的研究热点之一,其任务是利用神经网络模型从视频中提取人体行为动作特征,并依据提取出的特征对动作进行分类,进而达到识别的目的。行为识别技术已广泛用于视频监控、运动分析、虚拟现实和机器人技术等领域。国内外学者对此开展了大量研究并提出了一系列高效的行为识别算法, 按照网络模型输入的数据模态不同, 可将行为识别分为基于RGB 视频流和基于骨架两类方法。由于骨架方法只记录人体关节点的位置坐标,其具有数据量小、语义性高、不记录背景等无关信息、模型表达鲁棒性强等优点,而且随着人体姿态评估技术的发展,可以更方便地获取到人体骨架数据。因此,基于骨架的行为识别受到越来越多专家学者的关注。
目前,骨架行为识别方法主要分为2 类:基于手工特征的方法和基于深度学习的方法。基于手工特征的方法通过关节数据之间的关系提取动作特征。
Hussein 等人[1]将骨架关节位置的协方差矩阵作为序列的判别描述符,再通过传统的分类算法进行分类。Vemulapalli 等人[2]使用旋转和平移来建模身体部位之间的几何关系,并将这种关系映射到李群代数向量空间中作为动作特征。Weng 等人[3]受到朴素贝叶斯方法的启发,通过阶段中类间距离来对动作进行分类。然而,手工特征的方法存在难以提取深层特征与过度依赖数据集的问题,因此,深度学习方法开始替代手工特征方法。
由于循环神经网络(Recurrent Neural Network, RNN)和卷积神经网络(Convolutional Neural Network, CNN)强大的特征提取能力,[4] [5] [6] [7]使用RNN 和CNN 的方法对骨架数据进行建模,并且取得了不错的效果。但是,这些方法在将原始骨架数据转换成伪图像作为神经网络输入时会丢失骨架的原始结构信息。为了解决此问题,Yan 等人[8]首次使用图卷积(Graph Convolution Network, GCN)将骨架数据作为图进行建模,利用骨架数据中具有图拓扑关系的邻接矩阵提取空间特征,实现了性能的提升。但是由于特征聚合共享一个原始骨架固定的图拓扑,导致图卷积无法捕获原始拓扑之外关节的联系,Lei 等人[9]和Li 等人[10]通过构建一个可学习的图拓扑矩阵,以数据驱动的方式来寻求合适的图拓扑。由于特征图