针对无人机航拍图像的多目标检测问题,本文提出了一种基于改进YOLOv8的目标检测算法ASF-WIoU-YOLOv8。首先,在YOLOv8的基础架构上,加入一种注意尺度序列融合机制(Attentional Scale Sequence Fusion-ASF),该机制能够对不同尺度的特征图进行融合,从而获得更好的图像特征,提取出更丰富、更准确的特征信息。然后,对损失函数进行改进,引入Wise-IoU机制,该机制通过自适应地调整权重系数提高目标检测的灵活性和鲁棒性,从而进一步提高算法的检测精度。实验结果表明,在VisDrone数据集上,本文所提算法比YOLOv8算法的平均精度mAP50提升了2.0%,该算法在无人机航拍图像上具有更高的检测精度。
随着无人机技术的蓬勃发展,无人机凭借其机动灵活的特点,能够实现大范围的区域监测,现已广泛应用于各行各业当中[1]。针对无人机航拍图像的目标检测是无人机的一个重要应用,在民用和军事领域中发挥着重要作用,有助于测绘航测、应急救援、危险区域监测和识别易受灾地区等诸多方面[2]。
基于深度学习的目标检测算法一般可分为两类:以R-CNN 为代表的二阶段(two-stage)检测方法和以 YOLO 系列为代表的一阶段(one-stage)检测方法。
两阶段方法在数据特征提取之后先生成区域提取(Region Proposal)网络,再进行样本的分类与定位回归,代表性算法有区域卷积神经网络(Region based Convolu-tional Neural Network, R-CNN) [3]、快速区域卷积神经网络(Fast Region based Convolutional Neural Net-work, Fast R-CNN) [4]、更快的区域卷积神经网络(Faster Region based Convolutional Neural Network, Faster RCNN) [5]。
一阶段检测方法从最开始的提取特征到最后预测类别和边界框回归信息, 是一个整体的过程, 代表性算法代表算法有SSD 系列算法[6]和YOLO 系列算法[7]。
尽管基于深度学习的目标检测已经具备了很好的效果,但其在无人机目标检测中表现不佳。由于无人机航拍图像相比于自然场景的图像,具有大场景、多尺度、小目标、背景复杂和相互遮挡的特点,使得目标检测的精度不是很高。文献[8]为了充分利用可见光图像和红外图像的优点,提出了一种图像融合的目标检测算法,通过优化和重新设计YOLOv2 算法,提高了其在嵌入式平台上的性能。文献[9]设计了一种新的自我关注机制,将查询向量和周围环形区域的关键向量分开计算,提高了旋翼无人机数据集上的检测精度。为了更好地完成无人机航拍图像多目标检测,近几年来的主流方法大多都是基于YOLO 系列算法来实现的。
在文献[10]中, 研究者对YOLOv5 算法进行了优化, 将原有的CIoU 替换为Focal EIoU, 此举显著提升了模型的收敛速度和回归精确度。
而文献[11]则专注于提升无人机航拍图像中小目标物体的检测效果。通过在YOLOv7 网络中加入SPPFS 金字塔池化模块、优化损失函数以及引入CBAM 注意力机制等手段,该网络对小目标物体的检测精度得到了显著提升。然而,这样的改进也导致了网络结构的复杂化。在文献[12]中,同样为了提高对小目标物体的检测能力,研究者对YOLOv7 网络进行了改进, 增加了专门用于小目标检测的网络层,并引入了注意力机制。这些措施确实提高了网络的检测精度,但相应地也增加了网络的复杂度,提高了所需的参数量,并增加了网络层数。