在线学习环境中,专注度是衡量用户学习体验的重要指标。提高专注度识别的准确率可以帮助老师及时获得课程反馈,提升用户的学习体验。然而大多数现有的基于视频的专注度识别方法都只利用用户面部外观信息。除了面部外观信息之外,头部姿态和注视角度以及眨眼频率在内的细粒度行为线索也和学习专注度密切相关,但是,前人在专注度识别任务中没有很好地综合考虑以上特征。因此,本文提出一种新的专注度识别模型。该方法结合深度残差网络(ResNet)提取的脸部特征和基于OpenFace捕获的行为特征,这些特征输入到时序卷积网络(TCN)用于分析视频帧时空上的变化,以此识别出学习专注度。我们的模型在大型公开的专注度检测数据集DAiSEE上训练,在专注度四分类达到61.4%的准确率,实验结果表明,我们的方法超过DAiSEE上专注度识别的最先进方法。
在线学习不受时间与地域的限制,在现代教育中得到广泛使用。然而,与传统课堂相比,在线教育授课的过程中也带来其他问题。例如,学习者在接受知识的过程中,由于缺乏有效地监督,导致其学习效果无法得到保证,因此,需要对学习者的注意力状态进行有效监督,以保证在线学习者的学习质量。
对于专注度检测的研究数据包括学生的图像[1]、视频[2]、音频[3]和心电图(ECG) [4]。网络摄像头相比生物传感器,在获取学生上课数据方面,成本更低且更加便捷的。因此,最近大多数关于学生专注度检测的研究都是在网络摄像头获取到的学生上课数据基础上进行的,并使用计算机视觉技术进行专注度检测[5] [6]。
基于计算机视觉的学生专注度检测方法可以分为基于图像和基于视频的检测方法。前一种方法是从单个图像或从视频中提取的单个帧来检测专注度,这种方法的主要限制是只利用单个帧的空间信息,而专注度检测是一种时空情感行为。因此本研究主要基于视频对学生专注度检测。基于视频的专注度识别可以分为基于端到端模型检测方法和基于特征的检测方法。在基于端到端模型检测方法中,连续的原始视频帧被输入到卷积神经网络(CNNs), 而后再用递归神经网络回归出专注度级别[7]。
基于特征的方法中, 从视频帧中提取手工特征,并通过递归神经网络或机器学习方法进行分析,输出专注度级别[8]。现有的专注度识别研究使用各种特征,包括高层特征,如注视方向、头部姿势和面部动作单元等行为特征,以及低层特征,如LBP-TOP [9]和Gabor 特征[10]。我们发现专注度识别中特征提取很大程度依赖于人脸特征的提取, 目前人脸特征提取方法主要有两种思路, 一种是使用卷积神经网络(CNN)提取脸部空间特征, 但这无法直接提取到脸部细粒度特征。
另一种则基于单一手工特征或多个特征简单的组合进行特征提取, 但大多数研究人员往往只关注几个特征,而没有全面考虑面部外观、头部姿态、注视角度、眨眼率等特征。在专注度识别中,如何有效地将深度网络提取的粗粒度面部特征信息和头部姿态在内的多种视觉线索的细粒度行为特征相结合,这一问题尚未得到深入的探讨。