针对基于单目图像的DECA模型在人脸三维重建时精度不高,且容易出现过拟合的问题,提出用Vision Transformer (ViT)改进DECA模型的特征提取器部分,增强模型的局部和全局理解能力,提取更高维的特征,以提高人脸特征点的检测精度和人脸重建的精确性。进一步,引入DropKey策略,将ViT中的Key作为Drop对象,惩罚注意力峰值,以改善训练过程中的过拟合问题。实验结果表明,在引入ViT和DropKey策略后,人脸三维重建的效果有明显的提升。
人脸三维重建,作为计算机视觉领域的一个关键分支,致力于从单张或多张人脸图像中还原人脸的三维几何结构。单目人脸重建方法,相较于多目方法,具备更低的图像获取成本和更快的数字人物头部网格生成效率。
传统的人脸三维重建方法主要依赖几何学和计算机视觉技术,如多视角几何、结构光、稠密重建等。
这些方法通过特征提取和模型匹配等步骤,以图像本身表达的信息,如视差和相对高度,完成三维模型的还原。林琴等人[1]结合局部立体匹配算法,对初步估计的脸部稠密视差值进行平滑处理,重建人脸的点云信息, 在人脸数据库Bosphorus 上获得了更加精确的重建结果。
Castelan 等人[2]引入SFS (Shape From Shading)方法,利用成像表面亮度的变化,解析出人脸表面的矢量信息,从而重建出人脸深度信息。叶于平等[3]提出了基于3D 优化的标定方法优化结构光系统标定参数来提高重建精度, 通过基于GPU 的非刚性配准算法和纹理融合等算法重建出高精度高保真度的人脸动画表情。Blanz 等人[4]提出了基于变形模型的方法,该方法通过调整3DMM 模型(3D Morphable Model)中描述不同形状和纹理的PCA 系数拟合三维人脸模型, 利用自适应对齐算法将目标图像进行对齐, 使得生成模型更好的匹配目标图像;Cao 等人[5]又在3DMM 的基础上增加了人脸表情。
随着深度学习方法在单目人脸三维重建中的迅速发展,人脸重建质量得到了显著提升。一些研究探索了卷积神经网络(CNN)的应用,以解决在人脸重建领域的困难。Tuan Tran 等人[6]提出3DMM CNN 方法使用卷积神经网络ResNet101 [7]对3DMM 模型的形状系数和纹理系数直接进行了回归。Zhu 等人[8]针对3DMM 的输入只有一张图像的问题,将RGB 图像和PNCC (Projected Normalized Corrdinate Code)特征合并输入,通过权重调整的方式优先拟合关键形状参数,提高了模型的精度。Feng 等人[9]提出的PRNet 模型利用UV 位置图描述三维形状并在计算损失函数时对不同区域的顶点加权,以更精准的预测坐标,实现了以端到端的方式实现人脸三维重建。
经典的基于3DMM 模型的研究[10]都会面临着数据采集和处理方面的严重困难,而且难以精确捕捉人脸形状和纹理的复杂变化。为了解决这一问题,近年来提出了FLAME 头部模型[11],它通过整合多源异构数据集构建了更为精确的模型,可同时描述形状和纹理。Detailed Expression Capture and Animation (DECA)模型[12]则进一步引入深度学习技术,以生成UV 图和细节、形状和表情等参数,从而更为鲁棒地重建人脸的形状和表情。