近年来,随着深度学习不断的发展,基于深度学习的图像研究与应用已经在很多领域取得了优异的成绩。RCNN网络与全卷积网络等技术框架使得目标检测技术发展越来越迅速。Faster R-CNN算法被提出并广泛应用于目标检测和目标识别领域。在本文中,主要研究了基于Faster R-CNN算法对自制办公用品数据集中的图像进行的目标检测。相较于RCNN系列算法,Faster R-CNN提出了区域建议网络,同时将特征抽取、候选框提取、边界框回归、分类整合到一个网络当中,使得综合性能有很大改进。本文提出基于AlexNet改进的Faster R-CNN算法,在提取特征时,数据集通常具有大量高密度的连续性特征,而激活函数具有稀疏性,解决了目标小且背景复杂情况下的办公用品目标检测问题,提高了检测速度和检测精度。
随着深度学习[1]相关技术的快速发展,目标检测[2]与目标识别在生活中的多个领域中有着非常广泛的应用,并且都取得了相当好的效果。目标检测是找出图像或者视频中所有感兴趣的目标,通过判断该区域内是否存在目标来确定目标位置,再进行目标种类识别[3]。是机器视觉领域的核心问题之一。在目标检测中,准确率和时间都是检测方法的衡量标准[4],所以本文中对办公用品进行识别的好坏与提高人们的工作效率有很大的影响。本文通过减少窗口数量来提高运算效率。由于不同的物体有不同的外观或者形状, 再加上光线、背景等因素的干扰, 目标检测一直是机器视觉领域最具有挑战性的问题[5]。
因此, 目标检测的核心问题是:目标有各种形状、不同大小、任何位置。目前主流的目标检测解决思路是通过深度学习算法,进行端到端的训练,即输入图像到输出任务结果一步完成[6]。目标检测的过程是图像–特征提取–分类、回归[7]。
Fast R-CNN 基本实现端到端的检测[8],但是在选择性搜索(Selective Search,简称SS)算法[9] [10]提取候选框时需要耗费大量的时间,针对该问题Faster R-CNN 算法中提出了区域建议网络(Region Proposal Network,简称RPN) [11]的概念,这个RPN 网络是利用神经网络自己学习来产生候选区域[12]。在处理办公用品数据集时因为图像背景复杂特征提取不准确,本文在基础的Faster R-CNN 算法上使用ReLU 和Leaky ReLU 激活函数,这个方法很大程度地提高了生成候选区域的可靠程度和目标检测的准确度,并且有效地缩短了预测时间。
2. 基于Faster R-CNN 算法目标检测与识别 2.1. Faster R-CNN 算法 Faster R-CNN 作为一种CNN 网络目标检测算法,首先使用卷积层提取输入图像的特征图[13],该特征图被共享用于RPN 网络和全连接层[14]。随后用RPN 网络生成区域建议,通过softmax 分类器判断候