语音驱动3D面部运动的研究主要聚焦于拓展多说话人的3D面部运动数据以及获取高质量音频特征上,但采集3D面部运动数据往往需要高昂的成本和繁琐的标注流程,单一说话人的少量数据样本又会导致模型因为数据的稀疏性难以获取高质量音频特征。针对该问题,论文从时间序列任务中获得启发,将可微动态时间规整(Smoothed formulation of Dynamic Time Warping, Soft-DTW)应用到语音特征与面部网格(Mesh)顶点的跨模态对齐中。经过实验表明,采用Soft-DTW作为损失函数在生成面部动画的唇形吻合度方面相较于使用均方误差(Mean Squared Error, MSE)时有所提高,可以合成更高质量的面部动画。
近些年来,语音驱动3D 面部动画已成为学术和工业领域中的重要研究方向之一。该技术能够仅通过语音输入为数字角色生成高质量的面部动画,在VR、电影特效、游戏以及教育等领域存在着广泛的应用。其中面部动画与语音输入的口型匹配至关重要,因为这一因素直接影响着最终呈现的动画质量,所以面部口型的吻合度是评估面部动画质量时不可忽视的关键标准之一。
3D 面部动画主要通过两类方法生成, 一类方法是基于发音规则建立音素与口型动画的映射关系, Pif等[1]通过显式参数构建出一套音素(Phoneme)与视素(Visemes)间的协同发音规则,Taylor 等[2]则是建立音素到口型的一对多映射, 通过视素生成动态离散的口型动画。
Xu 等人[3]通过构造一个用于建模协同发音效果的规范集,通过简化音素集中的成对组合来实现文本–语音同步的面部运动。Sako 等[4]将隐马尔可夫模型(Hidden Markov model,HMM)应用到面部动画合成中,较好地还原了面部动画。该类方法主要通过手工方式构建特征,对手工规则依赖性高,因此不适用于高度自动化的应用场景。另一类方法是提取各种多种类型的音频特征,训练出端到端模型完成对面部动画的预测,Zhou 等人[5]在JALI 的基础上提出了VisemeNet 模型, 通过长短期记忆网络(Long Short-Term Memory, LSTM)取代人工, 完成对音素地提取和面部运动地映射。Karras 等[6]在原始音频中提取出线性预测编码(Linear Predictive Coding, LPC)特征并将该特征输入到卷积神经网络(Convolutional Neural Networks)中,实现端到端地预测面部运动。
Hochreiter 等[7]为解决传统神经网络无法对大跨度上下文联系进行建模的问题,提出长短期记忆网络策略。Schuster 等[8]提出双向递归神经网络,可同时学到上下文音频信息。Cudeiro 等[9]为解决数据缺乏问题,发布了包含多个说话人的VOCASET 数据集,并且提出VOCA 模型将说话风格泛化到不同说话人。
Richard 等[10]人则是更进一步,考虑到眨眼动作与语音信息的弱相关性导致上面部静止的问题,通过为面部表情增加可学习的分类潜空间,实现了语音信息与面部动画的解耦。Fan 等[11]人则是首次将预训练语音模型作为特征提取器,缓解了语音数据稀疏的难题,但在口型准确性上仍有待提高。Chen 等人[12]基于LSTM 模型,首次引入Soft-DTW 作为损失函数,并通过文字转语音(Text-To-Speech, TTS)技术进行数据增强,提高了说话人面部动作在52 维混合形状(Blend Shape)上的少样本泛化能力。该类方法引入了深度学习方法获取特征,但并未解决音频特征与人脸模型Mesh 顶点运动序列间的跨模态对齐问题,导致合成的口型在准确度上仍有所欠缺。
综上所述,提高面部口型动画准确度的关键点在于实现语音特征与面部动作的跨模态对齐,而当前3D 视听数据集中存在多个说话人在相同内容上的不同语音,使得在拓展数据的同时,加大了语音与口型的对齐难度。考虑到语音信号是一个不规则变长序列,难以通过欧氏距离进行对齐。因此本文从可微的