面向盲人避障的单目深度估计方法

发布日期:2023年9月19日
面向盲人避障的单目深度估计方法 面向盲人避障的单目深度估计方法

本内容试读结束

下载后可阅读完整内容,立即下载

盲人作为弱势群体,他们的衣食住行值得被人们关注,其中出行问题是造成盲人群体远离社会的重要原因。本文提出了一种基于DenseNet改进的深度估计算法,以解决盲人出行时无法感知周围障碍物的问题。首先,以DenseNet作为编码器的编解码过程中,信息丢失会造成深度估计不准确,为了减少这种问题在编码器与解码器的跳跃连接中引入RHAG残差混合注意力组,加强模型对细节特征的识别能力,提升模型恢复深度信息的准确性;然后,在解码出深度图后采用AdaBins后处理模块,对深度图进行优化,以更好地恢复出RGB场景的深度信息;最后通过ACB非对称卷积替换DenseNet中DenseBlock的卷积,通过增强卷积骨架,提升模型特征提取能力。实验结果表明,本文改进的算法与原网络相比,精度提升了约3.04%,均方根误差降低了约3.39%。与目前先进的深度估计网络MonoDepth相比,精度提升了约2.2%,绝对相对误差降低了约1.3%。本文算法在通过单张RGB图进行深度估计时能获取到更准确的深度信息,优于对比算法,且满足边缘计算设备的要求,具有一定的实用价值。

据统计,中国有1730 万盲人,位列世界第一,全球范围内也有约22 亿人患有视力障碍的疾病。出行是盲人融入社会需要面对的首要问题,而我国关于盲人的基础设施建设并不完善,使得盲人的出行受到很大限制,因此很多盲人选择封闭自己,不愿与外界联系,这就是盲人数量如此之多,我们却很难在日常生活中看到他们身影的原因。由于传统辅助手段如盲道、导盲犬等不能很好地解决盲人出行问题, 基于计算机视觉的辅助方法迎来新的挑战和机遇,其中深度估计技术是解决盲人出行中避障问题的关键[1] [2]。

近年来,随着深度学习的飞速发展,计算机视觉技术也越发成熟,被更多地应用于实际生活中,如VR 虚拟现实、自动送货机器人、无人机自主飞行等[3] [4]。

这些应用得以实现的基础之一便是深度估计, 即估计相机获取的图片中每个像素点与相机之间的实际距离。传统深度估计的方法大致可分为两种,一是通过激光雷达获取精准的深度信息;二是通过双目摄像头获取同一物体不同视角的图片,进行立体匹配计算出深度信息。相对来说,激光雷达获取到的深度信息更为精确,但结构精密、造价昂贵,普通盲人家庭难以承受。双目摄像头虽然成本上降低了很多,但其需要复杂的相机标定,两个相机的视差也需要精确的匹配,考虑到盲人在生活中可能碰到的各种突发情况,其维护成本太高,也不利于推广。相比之下,单目深度估计成本更低,实际使用中更方便,所以近年来基于深度学习的单目深度估计技术被更多人关注[5]。

最早在2014 年,Eigen 等人[6]提出了在深度估计中使用卷积神经网络(Convolutional Neural Network,



相关标签