基于自注意力机制与特征融合的课堂学生表情识别模型

发布日期:2023年6月27日
基于自注意力机制与特征融合的课堂学生表情识别模型 基于自注意力机制与特征融合的课堂学生表情识别模型

本内容试读结束

下载后可阅读完整内容,立即下载

为解决通常课堂场景下学生人脸表情识别的遮挡问题,通过部分分割和随机遮挡策略将原图分割成多路人脸图像,采用相同的残差网络提取特征,借助自注意力机制为多路网络分配不同权重,再对损失函数进行约束以限制遮挡支路权重始终小于眼部支路权重,进而得到加权后的支路特征并通过特征融合形成全局特征。在公开数据集FERplus上实验表明,模型能够大幅度提升人脸表情识别的准确率,有效缓解复杂场景下因遮挡造成的信息损失问题。

人类主要是通过面部表情这一途径来传达自身情感信息的。

早在上世纪70 年代就出现了表情编码系统的概念,人脸表情被分为惊讶、生气、高兴、厌恶、悲伤、害怕6 类。部分表情识别算法已能够实现较为准确的表情分类,如Zhang H 等[1]提出的弱监督局部全局关系网络,Marrero 等[2]提出的带有Attention 机制的基于CNN 的网络架构FERAtt,Li 等[3]提出的基于注意力机制的卷积神经网络ACNN, Fard 等[4]提出了一种自适应相关损失,以指导网络生成类内样本相关性高、类间样本相关性较低的嵌入式特征向量,改善嵌入式特征向量之间对类类别的区分。张海峰[5]等提出的基于多特征融合的人脸表情识别模型。这些模型的底层依赖AlexNet [6]、VGGNet [7]、GoogleNet [8]、ResNet [9]等网络。

学生群体课堂学习情况分析是一种特殊场景,此时的面部表情是个体听课专注度的反映,但信息的准确获取所受影响因素较多,如头部姿态、背景信息、面部遮挡等。

为了消除复杂背景影响,Lee 等[10]设计了两个支路模型,各支路分别用于正常提取人脸面部特征和聚焦面部表情之外的背景信息,最后进行融合。Liu 等[11]提出双分支多特征学习网络,有效地区分局部面部特征的细微差异。Acharya 等[12]使用流形网络结构进行协方差合并,再使用二阶统计量捕捉面部特征扭曲,以更好地捕获部分变形的区域面部特征。Zhou 等[13]利用Attention 机制和双线性池化进行多模态的表情特征融合,以使模型专注于面部的重要部位,提升面部表情识别的准确性。Wang 等[14]运用对抗学习思想消除身体姿态变化干扰,得到单纯的人脸表情特征,提高了表情识别的鲁棒性。Zhong 等[15]利用图结构的人脸表情表示和双向循环神经网络进行特征提取,有效去除了冗余信息,减少了干扰和训练开销。

与普通的人群密集型场景不同,学生课堂听课时的面部遮挡主要集中在左脸、嘴巴、右脸等下半张脸。为此,本文采取了如下的解决方法: 1) 引入自注意力机制学习局部特征并与整体特征融合, 使模型更关注表情有效区域, 过滤无效信息, 获取表情细节特征。

2) 限制遮挡支路权重始终小于眼部支路权重,并通过阈值限定眼部区域权重在合理区间从而进一步弥补课堂场景下面部遮挡带来的信息损失,提高模型准确率。

2. 基于自注意力机制与特征融合的表情识别模型 模型共分为提取人脸表情特征、自注意力权重分配、特征融合和表情分类4 部分,如图1 所示。



相关标签