基于YOLOv5s的注意力改进研究

发布日期:2022年2月22日
基于YOLOv5s的注意力改进研究 基于YOLOv5s的注意力改进研究

本内容试读结束

下载后可阅读完整内容,立即下载

随着时间的推进和硬件的不停发展,计算机的计算能力也得到了极大的提升,相应地,以算力为支持的深度学习也得到了飞速发展。作为深度学习的一个分支,目标检测算法的研究愈显突出。针对算法落地以及实时检测的要求,提出了基于YOLOv5s的注意力改进,在相同实验环境下,以不同的改进条件,将同一数据集输入给YOLOv5s训练和测试,通过tensorboard可视化结果得出,所提出的改进对YOLOv5s的准确率、召回率以及mAP有明显提升,对满足实际需求更近一步。

近年来,人工智能在算力的支持下得到了飞速发展。在计算机视觉的领域中,目标检测有着重要且广泛的应用,且一直处于火热的研究之中,甚至成为了其他研究领域的基础。面对不同场景的目标检测算法落地于安全监控[1]、交通[2]、医疗[3]甚至军事领域[4],特别是异常火热的自动驾驶[5],可见目标检测已经成为了基本。

利用深度学习的卷积神经网络提取到图像的特征信息,将物体分类的同时找出物体所在图像的具体位置,最后将其应用于实际生活中。在应用之前,需要保证模型的推理速度,以及精度,此方面的研究从未停止。

Girshick 等[6] 2014 年利用Region CNN(R-CNN)开启了深度学习在目标检测方面的研究, 效果显著,引入了感兴趣区域和CNN,使mAP 值在PASCAL VOC2007 上最好结果的30%提升到66.0%,但是精度离实际应用远远不够,检测速度更是达不到落地的要求。Girshick [7] 2015 年的Fast R-CNN 将R-CNN 中通过将选择性搜索算法得到的几千个候选框分别放入卷积网络改进为将一张完整的图像放进卷积网络,再得到每张图像的候选框,最后进行分类和回归,大幅减少每张图片耗时,在PASCAL VOC2007 上mAP 达到70.0%。Girshick 等[8] 2016 年的Faster R-CNN 使用RPN 网络生成候选框,引入多尺度锚框来检测各种尺度的物体,最后的检测精度和速度明显得到提升,在PASCAL VOC2007 数据集上mAP 达到73.2%。R-CNN 系列等[9] [10] [11] [12]两阶段目标检测算法,在拥有高精度检测效果的同时检测速度缓慢的问题依然突出。Redmon 等2016 年的YOLO (You Only Look Once)单阶段检测算法将物体检测问题归于回归问题,给卷积神经网络输入,最后得到边界框的信息以及置信度,在mAP 为63.4%的同时FPS 达到45,检测速度得到了极大提升,但是检测精度却比不上Faster R-CNN 检测算法。

YOLO 单阶段检测算法检测速度快是该算法能落地的优势,但是发展到现在存在的问题依旧是精度不足。

目标检测中的精度以及FPS 一直以来都是研究的对象,在保证精度满足需求的情况下追求实时性是YOLO [13] [14] [15] [16]算法在实际生活中得到广泛应用的条件,但是目前YOLO 检测算法的检测精度依然存在着精度以及mAP 不足的情况, 提升目标检测算法的检测精度以及推理速度成为发展的必要。

本文以提高Ultralytics 公司2020 年开源的YOLOv5s 检测算法的精度和mAP 为目的,采取将注意机制引入YOLOv5s 网络,相比于其他3 个版本YOLOv5m、YOLOv5l、YOLOv5x,YOLOv5s 体积更小, 实验更方便,获取网络深层信息更容易,从而探索注意力机制对YOLOv5s 检测算法的影响,以期提升YOLOv5s 检测网络的检测精度和mAP。



相关标签