一种用于在架图书书脊语义分割的山字形网络

发布日期:2020年10月16日
一种用于在架图书书脊语义分割的山字形网络 一种用于在架图书书脊语义分割的山字形网络

本内容试读结束

下载后可阅读完整内容,立即下载

在图像中识别在架书脊信息有助于实现更便捷的图书盘点,也可能实现即拿即走等更流畅的读者借阅体验,而书脊区域精确分割是重要前提。区别于普通目标分割,该分割问题的难点在于书脊的密集性及重复性。本文提出一种山字形深层神经网络结构,包含一个编码器及两个解码器。其中一个解码器为书脊分割主通道,另一个则结合书脊边界信息以融入更多的书脊边缘细节。另外,本文建立了一个书脊图像样本集,包含661张图像及15,454个手工标注的书脊实例。实验结果表明,提出的网络模型对书籍一类密集目标图像语义分割具有较高精度,在建立的样本集中具有约90%的均值交并比以及约95%的平均像素精度,性能优于经典的分割模型,验证了提出模型的有效性。

智慧图书馆建立在现代物联网技术基础之上,给我们带来更具魅力及亲和力的公共阅读、交流空间。

新一代智慧型图书馆的发展将在多点突破,其中人工智能的快速发展为图书馆带来了新一轮转型的契机。

受零售行业无人商店思想的启发, 实体图书馆一样可以实现无缝、流畅的借阅体验。

其中的关键是通过机器视觉技术实现身份验证与物品识别。人脸识别技术为身份验证提供了成熟的方案,包括图书馆应用场景。

而图书精确识别却是一个有待挖掘的领域, 尤其是对于在架图书来说只有书脊部分可被观察到。

为了实现便捷、准确的在架图书识别,本文将首先聚焦于图书书脊语义分割问题。如图1 所示示例,每本图书均可被定位、分割出来以方便后续处理,其中绿色掩膜部分即为书脊区域。

(a) 原图 (b) 理想分割结果 Figure 1. A segmentation example of book spine image 图1. 书脊分割图例



相关标签