针对复杂交通环境下的多目标检测问题,本文提出了一种改进YOLOv8的目标检测算法ASF-YOLOv8。首先,在YOLOv8的基础架构上,加入一种注意尺度序列融合机制(Attentional Scale Sequence Fusion, ASF),该机制能够对不同尺度的特征图进行融合,从而获得更好的图像特征,提取出更丰富、更准确的特征信息。然后,对损失函数进行改进,引入Inner-IoU,通过辅助边框计算IoU损失,进一步提高算法的检测精度。实验结果表明,在VisDrone数据集上,本文所提算法比YOLOv8算法的平均精度mAP50提升了1.4%,该算法在复杂交通环境下具有更高的检测精度。
目标检测是计算机视觉领域的重要任务之一,也是自动驾驶领域的重要技术之一。随着城市化进程的加速和科技的进步,交通环境变得越来越复杂,基于深度学习的多目标检测技术也面临着诸多挑战, 例如,如何有效处理光照变化、遮挡和动态背景等问题,如何在保证精度的同时提高检测速度,如何处理不同类型目标物的检测等[1] [2]。
目标检测算法一般可分为两类:以R-CNN 为代表的二阶段(two-stage)检测方法和以YOLO 系列为代表的一阶段(one-stage)检测方法。两阶段方法在数据特征提取后先生成区域提取(Region Proposal)网络, 再进行样本的分类与定位回归,代表性算法有区域卷积神经网络(Region based Convolutional Neural Network, R-CNN) [3]、快速区域卷积神经网络(Fast Region based Convolutional Neural Network, Fast R-CNN) [4]、更快的区域卷积神经网络(Faster Region based Convolutional Neural Network, Faster RCNN) [5]。一阶段检测方法从最开始的提取特征到最后预测类别和边界框回归信息,是一个整体的过程,代表性算法有SSD 系列算法[6]和YOLO 系列算法[7]。文章[8]为了充分利用可见光图像和红外图像的优点, 提出了一种图像融合的目标检测算法,通过优化和重新设计YOLOv2 算法,提高了其在嵌入式平台上的性能。文章[9]设计了一种新的自我关注机制,将查询向量和周围环形区域的关键向量分开计算,提高了旋翼无人机数据集上的检测精度。文章[10]提出了一种注意尺度序列融合机制(ASF),采用尺度序列特征融合(SSFF)模块来增强网络的多尺度信息提取能力,并使用三重特征编码器(TPE)模块来融合不同尺度的特征图。
本文针对复杂交通环境下的多目标检测问题,将注意尺度序列融合机制(ASF)融入到YOLOv8 算法中,以增强网络对多个不同种类不同尺度的目标的检测能力,另外引入Inner-IoU 机制[11],通过辅助边框计算IoU 损失,进一步提高算法的检测精度。
2. 本文总体方案 2.1. 总体网络结构 本文提出了一种基于改进yolov8 的多目标检测算法ASF-YOLv8,该算法模型主要包括三大模块:主干特征提取模块(Backbone)、特征加强模块(Neck)、检测模块(Detect)三个部分构成,如图1 所示。
在图1 所示的ASF-YOLOv8 算法网络结构图中,Conv、C2f、SPPF、Concat 和Detect 模块的操作流程和YOLOv8 一样,在此本文不做过多说明。SSFF-YOLOv8 算法的主干特征提取模块Backbone 仍然沿用了YOLOv8 的CSPDarkNet 结构;特征加强模块(Neck)则进行了重新设计,主要是在Neck 部分加入了TFE、SSFF 和CPAM 模块,其中TFE 模块的操作流程如图2 所示,SSFF 和CPAM 模块在2.2 节和2.3