单帧非自然图像深度估计与动态合成

发布日期:2023年4月17日
单帧非自然图像深度估计与动态合成 单帧非自然图像深度估计与动态合成

本内容试读结束

下载后可阅读完整内容,立即下载

深度学习在单目深度估计任务上表现优异,通过学习单帧图像与深度图像之间存在的映射关系来估计图像的深度。但是,目前单目深度估计的研究仅关注于自然图像,当把它应用于非自然图像,如绘画图像时,相对于自然图像,它们有着低纹理、切边锐利、平滑过渡相对少的特点,会出现深度估计中前后不同物体的层次感不明显,以及同一物体上出现深度不一致的问题。本文根据这类图像设计了一个由单目深度估计模块和RGB图像指导的精细化模块构成的精细单目深度估计网络RefineDepth来改善以上问题。同时,由于绘画图像缺乏对应深度信息,本文通过三维场景卡通风格渲染图像来模拟绘画类非自然图像的方式,制作了两个绘画图像数据集SSMO和SU3D,并建立了一个真实的山水画测试集。实验结果表明,模型在测试的数据集上都取得了出色的结果。最后,将绘画图像进行基于深度图像渲染,动态合成立体效果。

随着VR、AR 等技术的出现,图像的立体化展示逐渐成为对影像等媒介的需求。除了常见的3D 电影[1]等方面的娱乐应用,图像立体化还可以应用于广告等商业应用,比如通过立体化的海报来实现更好的宣传效果。

常用的立体化实现方式有建模、全息投影、神经辐射场(Neural Radiance Field, NeRF) [2]等, 其中单目深度估计(Monocular Depth Estimation, MDE)是从单幅图像中估计深度,通过预测平面图像中每个像素的深度值来实现从平面到立体的投影。其研究方法不管是传统的物理方法,还是概率图模型,或者是现如今主流的深度学习,都仅关注于自然图像。

非自然图像,比如手工绘制的绘画图像,不同于建模场景中真实计算的景物深度,没有深度的地面真实值(Ground Truth, GT)。同时,绘画图像有着天生的低纹理、切边锐利、平滑过渡较少等特点,在使用关注于自然图像的模型估计深度时,往往会出现深度估计中前后不同物体的层次感不明显,以及同一物体上出现深度不一致的问题。

针对上述问题, 本文提出了一个针对非自然图像的基于Transformer 网络[3]的单目深度估计网络。

首先,通过一个单目深度估计网络估计出场景深度分布,可获得该场景下的深度图像;其次,在后处理中引入了RGB 图像指导的精细化(RGB-Guided Refinement, RGR)模块,能更好地恢复在深度估计过程中缺失的纹理和边缘等细节:利用原图作为指导,以深度图的地面真实值作为目标进行精细化,增加深度图的细节部分,以提升整体效果。另外,使用基于深度图像的渲染(Depth Image Based Rendering, DIBR)技术[4]实现从原始视图和深度帧生成虚拟视图,实现图像的动态合成。

对于绘画图像而言, 由于其主观创造性和抽象性, 不存在可以直接使用的成对RGB 图像和对应的深度地面真实值,往往需要手动去绘制深度,消耗大量人力物力。针对这一问题,本文使用三维场景的卡通风格渲染得到的图像来模拟绘画类非自然图像,以及场景中自带的深度信息作为深度值来设计并制作了两个数据集。模型通过学习这些数据集中非自然图像和对应深度的映射关系,来估计绘画图像的深度



相关标签