针对现有的单个深度线索对深度感知不准确的问题,以Marr创建的由采集图像到成功构建三维信息的体系结构为基础,本文提出了一种结合多种深度线索的单目图像深度排序方法,实现室外场景中的单目深度排序任务。首先,对输入的单目图像进行超像素分割,确定要排序的目标。然后将分割的区域进行区域属性标记,分别标记为地面、天空、垂直物三个类别中的某一类。对于标记为天空的区域我们将其深度固定为最远,而标记为地面的区域将其深度值固定为最近,对于标定为垂直物的区域,结合局部区域之间的遮挡关系和消失点线索综合考虑。其次,构建图模型,结合区域与地面接触点位置关系和区域之间的遮挡关系构建图模型,然后使用置信度传播进行全局推理,获取一致的深度排序结果。最后利用区域外观特征,把具有外观像素的超像素区域进行合并,并使用混合进化算法进行全局能量优化,得到最终的深度排序结果。在BSDS500数据集上,验证了本文方法的深度排序性能,实验结果能够说明本文的深度排序表达优于GM2014获取的深度排序结果。
场景深度结构恢复是估计出单幅单目二维图像中任一点与摄像机之间的距离关系进而获取真实的场景结构的空间布局表达。人类视觉系统作为基本的双目视觉能够直接感知场景的空间深度结构,也被很快应用到各项计算机视觉研究中。然而,现实生活中,我们获取的大部分图像都是有单个摄像机拍摄的二维图像或二维视频,这些图像或视频缺乏多视角信息,研究起来更具有挑战性。单目视觉场景的深度结构是场景物体间相对位置关系的集合, 其基本任务就是判定场景中的物体对之间的相对位置远近关系, 也就是单目图像深度排序,能够有效的指导人类从二维图像重构出具有几何信息和照片真实感的三维结构,获得图像的三维立体重构,进行场景的三维现实模拟,同时在视频监控、机器人导航等实际领域中具有广泛的应用。
单目场景深度排序就是判定目标距离摄像设备之间更远或更近的关系。针对这一课题,许多方法被提出,其中大部分工作研究关注在双目视觉系统下视差的计算,或通过学习参数的方法估计深度信息。
当前用于获取单目图像深度的方法大致可以分为两类:基于深度线索的深度信息获取和基于传感器的深度信息采集。
单目图像深度估计主要依赖于特定场景中的单目线索,如亮度、阴影、遮挡、凸形、消失点、纹理梯度等低层线索。Palou 等人[1]根据T 连接中接近平角的区域更可能是遮挡区域以及凸形更可能出现在前景目标区域中,获取目标之间的遮挡关系,并利用该遮挡关系构建深度排序概率图进行全局推理。凸形作为T 连接进行遮挡判定的补充,可以得到更鲁棒的相对深度估计。然而,仅依靠单一的深度线索是不够的,特别是复杂的场景Hoiem 等人[2]把图像划分为不同的平面区域,包括地面、天空、垂直物,并在此基础上为深度估计提供全局约束。Zeng 等人[3]除了依靠局部遮挡线索外,另外计算了地面接触点和