基于生成对抗网络的图像风格迁移算法已成为人脸图像性别转换的主流模型,但现有方法仍存在转化后的人脸图像模糊,背景图像扭曲,面部身份保留效果不好等缺点。针对上述问题,基于多模态无监督图像翻译网络(MUNIT),本文提出了基于改进的人脸图像性别转换模型。首先对MUNIT模型生成器部分进行优化,在编码器部分加入动态实例归一化操作(DIN),使编码器对人脸内容特征和风格特征的剥离更加精确;并在内容编码部分的残差块网络后加入混合注意力模块(CBAM),使模型提取更丰富的人脸关键特征;此外,对CeleBA数据集的人脸图像根据属性进行筛选以及裁剪,减少了图像背景对于生成图像的影响,使模型更加专注于人脸特征的学习。根据实验对照情况,本文方法能够生成更加精细的人脸性别转换图像。
人脸作为人最典型的外部身份特征之一,具有非常重要的研究价值。近年来,随着深度学习的不断发展,对于人脸的感知研究越来越多的受到关注。其中,人脸识别[1] [2]已经应用到社会生活中的方方面面,比如上班打卡,人脸支付等;人脸关键点检测[3] [4],人脸3D 重建[5]以及人脸美化[6] [7]都已经有了非常深入的研究。其中关于人脸的合成转换大多依靠生成对抗网络(GAN) [8]来实现。人脸图像性别转换可以看作人脸风格迁移的一种,需要在不改变原主身份的情况下生成异性的人脸图像,一般依靠生成对抗网络来实现。
Karras 等[9]提出了一种无监督人脸属性迁移的网络StyleGAN, 它设计了新型生成器结构,将图像的高层语义信息进行解耦分离,可以在一定程度上对人脸进行合成。Zhu 等[10]提出了一种循环一致性图像转换网络CycleGAN, 该网络可以在无配对数据集情况下进行图像风格转换, 但对于人脸性别转换任务来说,生成结果不够精细。Kim 等[11]提出UGATIT 模型,将辅助分类器得到的特征图输入到注意力模块,以便于更好区分源域和目标域,使模型迁移效果更加优秀。但容易改变图像无关背景。Huang 等[12]在2018 年提出多模态无监督图像转换网络(MUNIT),它将图像的隐藏编码进一步细化为图像内容编码和图像风格编码,通过改变编码的方式来完成图像的风格交换,但对于特定人脸图像性别转换问题, 其图像生成结果仍存在人脸图像模糊, 背景图像扭曲, 面部身份保留效果不好等缺点。
针对上述问题,基于MUNIT 模型,本文提出一种改进的人脸图像性别转换模型,并通过实验验证了其有效性。
本文的主要贡献如下: 1) 在网络结构上改进生成器, 在编码器部分加入动态实例归一化操作(DIN) [13], 使编码器对人脸内容特征和风格特征的剥离更加精确。
2) 在内容编码部分的残差块网络后加入混合注意力模块(CBAM) [14],使得模型能够更加有效地学习人脸图像中关于性别特征的部分,减少图像无用信息对于生成结果的影响。