仅使用少量的惯性测量单元(IMU, Inertial Measurement Unit)进行人体姿态估计是一种非侵入性且经济的人体姿态估计方法,该方法主要面临的挑战是从带有噪声的IMU信号中精确估计人体姿态。为此,对人体姿态估计问题提出了一种仅使用6个IMU精确估计人体姿态的方法。1) 提出了一种双重信息保留注意力Transformer网络(DirtNet, Dual information retention transformer Network),它能够有效保留历史信息并通过注意整个序列的信息来获得更好的结果。2) 通过对加速度进行积分了获得了近似变化速度,并将其作为额外的输入通道以提高了人体姿态估计的精确度。3) 使用均匀滤波过滤和白噪声模拟的方法对合成的加速度进行了数据增强,以此来拟合真实的IMU数据并得到更好的训练结果。与之前的研究相比,改进后的方法有效提高了姿态估计的精确度。
人体的动作捕捉在游戏(人物模型的动作、体感游戏)、体育(运动姿势的矫正)、医学(病人的复建、不良姿势的矫正)、VR/AR 和电影制作等各种应用中发挥着重要作用。
目前比较流行的是基于视觉人体姿态估计方法。其中一种是通过多个摄像机与深度学习来进行人体姿态估计,如使用了RGB 相机[1] [2]和深度相机[3]进行了人体姿态估计,这种方法可以达到较高的精确度,但无法解决遮挡的问题,不适合在有较多遮挡物的室内使用。另一种是通过在人体上安装光学标记并通过摄像头记录光学信号以实时捕捉人体的动作的方法,比如Vicon 就使用这种方法进行人体姿态估计并达到较高的精确度。但是基于光学标记的方法需要庞大且昂贵的基础设施,测试者只能在室内进行运动,同时也无法解决遮挡的问题。目前来说基于视觉的方法都需要昂贵的设备以及合适的场所,并不适合消费者级使用。
与基于视觉的姿态估计方法相比,IMU 安装于人体且独立于环境,因此不会受到环境遮挡的影响, 可以在各种各样的环境中使用。
同时由于IMU 的价格较低, 比较适合消费者级的用户进行使用。
基于IMU的人体姿态估计方法的缺点是当所使用的IMU 数量较少时,进行姿态估计时会产生较大的误差。但是随着神经网络的发展,目前的基于单纯基于IMU 的高精度人体姿态估计已经有了一定的发展。有的研究者使用了双向递归神经网络[4]并使用6 个IMU 对人体姿态进行了估计, 也有的通过将姿态估计分为三个部分提高了姿态估计的精确度[5],有的通过使用简单递归单元(SRU, Simple Recurrent Unit) [6]进行快速的人体姿态估计[7]。
以上方法能够通过仅使用6 个IMU 进行较为准确的人体姿态估计, 但所使用的网络都是基于RNN 及其变体,没有充分利用IMU 信息。因此,针对仅使用IMU 进行人体姿态估计任务提出了一种新的网络结构。
主要的改进点是: 1) 提出了一种新的具有双重信息保留注意力模块的网络结构,更好地建模了长距离依赖,提高了姿态估计的准确度。
2) 使用均匀滤波过滤和白噪声模拟的方法对合成加速度进行了数据增强以更好地拟合真实数据。
3) 使用近似变化速度作为额外参数输入并降低了姿态估计的误差。