近几年,人们围绕人物图像合成技术展开了多项研究,姿态转换就是其中一个。作为条件输入的姿态信息的引导有局限性,视角变换时生成模型难以处理复杂的人物外观特征。注意力机制可以有效提取图像中的重要部分,通过将提取特征用的残差块嵌入到残差注意力模块中,通过短跳跃连接来逐步学习姿态相关性,自适应地选择空间像素,充分利用姿态转换过程中的全局空间信息,提高生成网络的表征能力,生成具有目标姿态的高质量人物图像。在多类别大型服装数据集DeepFashion上进行测试,验证了所提出算法的有效性。
近几年,随着深度学习中生成对抗网络(Generative Adversarial Network, GAN) [1]的发展,人物图像合成技术受到越来越多的关注,已经成为一个研究的热点问题,在图像编辑、电影制作、行人重识别和虚拟换衣等方向上有广泛的应用[2] [3] [4]。
通过姿态节点引导的人物图像合成是目前最流行的方法之一, 生成具有目标姿态的人物图像实现姿态转换技术的实现,可以方便用户在线上服装类购物平台了解更多的信息,也可以促进虚拟试衣间的完善。然而,由于人体是非刚性的,在姿态变换的过程中可能会引起合成图像中人物的变形和伪影的产生,同时,在不同视角下的不同姿态的人物外观有很大的不同,这使得生成网络必须具有捕捉图像分布中大范围变化的能力和推理被遮挡区域像素的能力。另一方面,服装的纹理和人物外观的细节在生成过程中很容易丢失。
因此, 目前的人物图像合成技术还存在着许多挑战。
文献[5]通过对人体的3D 模型进行建模,再将3D 人物渲染到2D 图像中,这种方法通常比较耗时, 并且计算量很大。文献[6]首先提出用两阶段的模型来实现人物图像的合成,但这种coarse-to-fine 策略的计算步骤很复杂。随后文献[7]在之前的基础上将图像的前景、背景和人物的姿态分解和编码成不同的特征,通过一定的组合方式再把它们结合在一起生成目标姿态人物图像,虽然提升了对生成过程的编码控制,但是最后生成的图像质量并不高。文献[8]通过提出一种神经网络中跳跃连接的变体来解决因姿态不同造成的人物外观的像素错位,这种方法不适用于形变较大的姿态转换。
受人类感知过程的启发,注意力机制在计算机视觉领域中常用来提取重要区域的特征[9] [10]。同时残差网络ResNet [11]的提出有效解决了网络退化和网络难训练的问题,被广泛应用于深层网络中。
综上所述,本文提出了基于嵌套残差注意力模块的人物姿态转换方法。一方面,保留了传统提取特征用的残差模块用于优化深层网络的优势,同时为了减少静默神经元的出现本文将里面的激活函数替换成LeakyReLu [12]。另一方面,将残差模块嵌入在注意力模块里,可以在深层网络传播过程中根据注意力机制的动态变化学习全局特征的局部相关性,高权重聚集重要信息,通过多方位残差学习融合特征信息,使得人物图像可以递进式转换姿态,相比之前的方法不会丢失更多细节,平缓地完成姿态转换的过程,同时添加Style Loss [13]损失函数来引入Gram 矩阵提升姿态转换前后图像风格的匹配程度,使生成图像的风格和原图像风格保持一致。