为了解决在目标跟踪过程中因录制设备发生偏移带来的跟踪偏移和目标丢失问题,提出了基于YOLO和KCF的目标跟踪算法。本文使用基于回归的端到端设计思想的YOLO算法实现目标检测,在目标检测前,对视频图像帧进行灰度化和均值滤波法实现图像增强,减少冗余数据,去除噪点。随后通过YOLO算法进行KCF算法跟踪框的初始化,在跟踪过程中设置偏移误差率(Offset error rate, OER)实时调整跟踪窗口位置,实现目标实时准确跟踪。实验结果表明,本文所提出的方法在面对录制设备发生偏移时相比于KCF
随着AI 技术的不断发展, 其子领域计算机视觉技术也获得了突飞猛进的进步, 计算机视觉即通过机器实现“人眼”对事物的测量和判别能力。
目前, 计算机视觉技术主要应用于智能视频监控、智能交通、军事应用等领域,其中智能视频监控是通过摄像机获取场景和目标的视频信息,使用算法实现目标检测和目标跟踪,对目标行为进行识别和场景理解。
本文主要对目标跟踪技术进行研究,目标跟踪是计算机视觉领域的研究热点,在军事制导、视觉导航等领域中有着广阔的应用前景,跟踪算法的研究具有重要的实际意义和理论价值[1]。
目标跟踪技术就是在给定视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标的大小与位置。为了提高目标跟踪技术的跟踪准确率和鲁棒性,首先进行目标检测获取目标位置和大小,目前常见的深度学习目标检测算法有两类,一类是基于候选区域的目标检测算法,典型算法如:R-CNN [2]、Fast R-CNN [3]、Faster R-CNN [4];另一类是基于回归的目标检测算法, 典型算法如:YOLO [5]、SSD [6]等。其中R-CNN 算法是基于候选区域算法的基础,后续此类算法都是对R-CNN 算法进行改进以获得更高的识别速度和识别率的算法。
R-CNN 的基本思想是利用选择搜索算法(Selective Search)在图像中提取可能包含目标的候选区域,然后用CNN 提取特征,实现目标跟踪[7]。而基于回归的YOLO 和SSD 算法, 将分类和目标预测同时进行,其中YOLO 算法每秒可处理45 帧图像能够满足目标跟踪的实时性。
视频图像帧目标检测后,虽然获得了目标位置但缺乏对视频帧目标运动信息的连续性。传统的目标跟踪算法如KCF (Kernel Correlation Filter)算法具有较强的实时性,但当录制设备发生偏移时,会出现目标跟踪偏移,甚至丢失目标。
为了解决设备偏移带来的跟踪偏移和目标丢失问题, 本文采用基于YOLO 和KCF 的目标跟踪算法, 通过YOLO 算法初始化KCF 算法跟踪框,设置偏移误差率判定何时需对KCF 算法跟踪框进行更新。
2. 图像预处理和目标检测 本文主要通过灰度化和图像增强法中的均值滤波法实现图像预处理,减少冗余信息,去除噪点和YOLO 算法实现目标检测。
2.1. 图像增强 图像增强的方法按照不同作用域可分为空域和频域增强,空域有灰度变换、直方图均衡化和空域滤波等, 频域增强有高通、低通和同态滤波等[8]。
本文使用灰度化和均值滤波法减少冗余信息, 去除噪点。
1) 灰度化,在RGB 模型中,如果R = G = B 时,则彩色表示一种灰度颜色,其中R = G = B 的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值),灰度范围为0~255。