改进YOLOX中特征融合结构的目标检测方法

发布日期:2022年6月13日
改进YOLOX中特征融合结构的目标检测方法 改进YOLOX中特征融合结构的目标检测方法

本内容试读结束

下载后可阅读完整内容,立即下载

因无人机俯拍视角的特殊性,航拍目标在成像中呈现出小尺度/多尺度、外观相似度高、背景复杂干扰大等特点,导致航拍目标检测相对通用目标检测更具挑战和难度。为了解决该问题,针对通用目标检测中常用于融合多尺度特征的路径聚合网络(Path Aggregation Network, PANet)模块,本文提出一种改进PANet的多距离关联依赖MDAD (Multi-Distance Association Dependency)模块,该模块包含跨层连接和同层连接两种连接方式,通过密集的跨尺度交互融合增强不同尺度特征层的弱特征信息。同时,基于YOLOX框架和所提出的MDAD模块,构建了更加适合航拍多尺度复杂目标的检测方法。在公开的典型航拍目标检测数据集VisDroneDet上,实验验证了本文所提方法的有效性。所提模块可适用于在不同模型大小的主干网络上进行扩展,具有较好的实际应用价值。

目前无人机目标检测已广泛应用于战场情报侦察、重要目标鉴别、矿产资源勘探、灾情环境监测等军用、民用各个领域[1]-[6],与通用目标检测相比,无人机目标检测因无人机俯拍视角的特殊性,目标在图像中呈现出小尺度/多尺度、外观相似度高、背景复杂干扰大等特点,很难对目标进行高精度的定位检测。图1 展示了VisDroneDet 数据中影响精度的主要因素:1) 目标呈现小尺度/多尺度:航拍大视场场景中目标多以小的尺寸呈现,且目标尺度会随航拍高度呈现一定的多尺度变化。2) 目标外观相似高:航拍高度越高,目标的尺度越小、像素越少,其不同类别目标间的差异难以体现,如小汽车、面包车、货运车等差异性会被弱化,区分不同的目标类别更难。3) 背景复杂干扰大:不同于道路监控、海面监测等单一背景的目标检测任务,无人机航拍场景存在着城市街区、深山老林、道路交错等各类复杂场景,这些场景中的光线、阴影、遮挡等现象会影响着目标外观、大小,并带来一定的噪声。上述因素容易导致目标检测器出现误检、漏检,降低目标检测模型性能。

近年来, 基于卷积神经网络的目标检测模型[7]-[12]在通用目标检测数据集[13] [14] [15]上取得了长足的进步, 不断刷新检测记录。

其中YOLO (You Only Look Once)一阶段目标检测方法经历了YOLOv1 [16]、YOLOv2 [17]、YOLOv3 [7]、TinyYOLO、YOLOv4 [8]、YOLOv5、YOLObile [18]、YOLOF [19]的改进发展,因其时效性优越被广泛应用于实际工程项目中。2021 年旷视科技发表了该系列最新改进算法YOLOX [20],并取得了非常不错的检测效果。但是,针对无人机航拍目标检测任务,在通用目标检测数据集训练出来性能出众的检测模型会存在着跨域适配问题,需要研究新的适配航拍场景目标检测的特定检测器部件或模块来提升性能。



相关标签