针对当前不使用三分图作为先验知识的人像抠图算法在远景人像抠图任务中存在多余的干扰信息、人像边缘轮廓粗糙、人体携带物品易与背景混淆等问题,提出了人像抠图无监督语义精修算法。该算法由人像边框感知模块与无监督语义精修模块组成。人像边框感知模块首先使用了行人检测模型识别出所有人像,并结合边框感知算法来去除多余的干扰信息。无监督语义精修模块利用了无监督语义分割模型提取特征,然后使用语义精修算法进行人像轮廓的修复。实验表明,在自制的远景人像数据集中,使用主流的人像抠图算法作为基线,并加入人像抠图无监督语义精修算法后,效果得到了明显的提高,人体携带物品也能精准识别,人像轮廓也更加清晰。同时在半身人像数据集中,效果也有一定的提升,表明了该算法也具有泛用性。
随着相机、手机等硬件设备的发展,需要后期处理的图像也越来越多。但由于图像具有多样性与复杂性,无论传统图像处理方法还是深度学习方法,都难以做到对任何输入完全鲁棒。所以,针对特定类别的图像抠图算法[1]更具有实际应用意义。
人像抠图是语义分割[2] [3]的一种, 是从图像或者视频中提取出人像前景, 使人像与背景准确分离的一种技术。该技术在现实中有着广泛的应用,比如虚拟现实、增强现实、电影制作和摄影合成,这些应用主要基于图像合成技术。在图像合成技术中,通过人像抠图技术可以得到所需要的mask,mask 中每一个像素点的值表示了原始图像每个像素是否属于人像前景,其精度直接影响合成图像质量的优劣。
对于图像I,人像抠图旨在找到人像前景F 与背景B 的最佳线性组合。对于任意的像素点i,可以满足以下公式: ()[]1, 0,1iiiiiiIFBααα=+−∈ (1) 其中Ii 为图像I 的像素点i, αi 表示在像素点i 的前景不透明度。
对于RGB 图像, 有7 个未知变量:( )riF, ( )giF, ( )biF, ( )riB, ( )giB, ( )biB, iα ,而已知变量仅有3 个:( )riI, ( )giI, ( )biI。由于已经变量远小于未知变量,因此需要用户提供额外的先验知识才能求解,所以多数图像抠图算法[4] [5] [6] [7]利用三分图(trimap)作为先验知识,再进行图像抠图任务。比如Cho [8]等人结合了CF 抠图[9]与KNN [5]抠图两种方法,以两种方法的输出和RGB 图像作为CNN 网络的输入来学习图像与mask 的映射关系。Xu 等人[10]用RGB 图像与三分图来输入并集成了编码解码器结构和细化网络来预测mask。
Lutz [11]等人则使用生成式对抗网络进行图像抠图任务。三分图是用户指定一部分已知的前景区域与已知的背景区域,然后求解未知的区域α。然而这个方法需要用户有一定水平的专业知识而且可能需要很长的时间才能得到满意的效果。
因此近年来有学者尝试舍弃三分图作为先验知识并以端到端的方式学习图像与对应的mask 之间的映射关系。比如Chen [12]等人从图像中学习隐性语义约束而不是用三分图或者涂鸦等先验知识来生成mask。Liu 等人[13]利用粗糙注释数据与精细注释数据相结合的方法,在不使用三分图的情况下,实现端