交通场景中车辆的检测和分类是发展智能交通的应有之义。本文基于利旧的原则,利用路侧交通监控视频数据,设计改进的YOLOv3深度学习网络模型,使用残差单元以保证卷积神经网络收敛损失,算法采取多尺度特征融合预测的策略,直接在多个尺度的特征图上回归预测车辆边界框和类型,实现车辆的目标快速检测和车型判定。将改进前后的模型在测试集中进行测试,实验结果表明本文提出的深度学习网络在实际交通场景中既满足实时性的要求,又具有良好的车型检测和分类效果。
智能交通是交通运输信息化发展的战略目标, 信息化是实现智能交通的重要手段, 涵盖了人、车辆、道路等多维度信息提取,快速、准确地提取交通参数信息是智能交通系统正常运行的前提和保障。作为一种重要的交通参数,车型的分类研究得到了极大的关注。
传统的交通参数提取主要用到雷达[1] [2]、声波[3]、激光[4]、地感线圈[5] [6]等传感器设备,由于受限于设备安装、维护以及费效比等因素,传统的参数提取设备难以大范围普及。目前路侧的视频监控设施非常完备,其主要目的是为交通管理部门进行远程监测和提供实时路况信息,这些数量庞大的监控摄像数据, 是交通参数提取和有效利用的重要应用场景[7] [8] [9] [10]。
车型分类的前提是车辆目标的检测, 目前广大专家学者已提出许多车辆检测方法,包括:基于背景建模的检测方法[11] [12] [13],该类方法处理速度快,缺点是容易受到环境因素的扰动,对于交通场景中的静态目标检测效果不佳;基于统计学习的检测方法[14] [15],该类方法预先训练手工特征目标分类器,采用多尺度滑动窗口搜索目标区域,能够对环境因素有效抑制,减少干扰,不受场景中物体阴影的影响,但处理速度较慢,且泛化能力较差;基于深度学习的检测方法[7] [8] [9] [10] [16]-[28],随着大规模数据集的出现及计算机软硬件的升级,基于深度学习的目标检测方法的精度得到了快速提升,其中以Yolo [23]为代表的回归模型在检测精度和速度上都占据了优势。
本文的主要工作聚焦于如何稳定、鲁棒地对交通场参数进行实时提取,基于利旧的原则,利用部署在道路龙门架上的原有交通监控视频数据,结合改进后的YOLOv3 的深度学习模型,实现交通场景中车辆的实时检测和车型的分类。
2. 算法模型 目前基于深度学习的目标检测算法主要分为两大类:一是基于区域提名的方法,因其主要包含两个过程,因此又称为两阶段方法,以R-CNN (Regions with CNN features) [16] [20]为代表,基本思路为针对图像中目标物体位置,预先提出候选区域,再利用卷积神经网络提取图像深度特征并判断区域内物体类型,该类算法的检测精度普遍较高,但是耗时比较严重;另一种是基于端到端学习的方法,又称为单阶段方法, 以YOLO (You Only Look Once) [24] [25]和SSD (Single Shot MultiBox Detector) [26] [28]为代表, 其主要思路是均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用卷积神经网络提取特征并直接进行分类与边框回归,整个过程只需要一步,因此该类方法检测速度普遍较快。