基于CNN-BiGRU的足球视频片段分类方法

发布日期:2023年3月23日
基于CNN-BiGRU的足球视频片段分类方法 基于CNN-BiGRU的足球视频片段分类方法

本内容试读结束

下载后可阅读完整内容,立即下载

基于深度学习的视频分类是体育视频研究的一个重要方向。针对目前视频事件类型识别率低的问题,本文提出了一种基于CNN-BiGRU网络的足球视频事件分类方法。该方法首先利用PySceneDetect工具的场景切换检测功能对完整足球视频进行镜头分割,在此基础上构建包含五类足球事件的数据集;随后通过实验对比,选择将目前主流的卷积神经网络VGG16与BiGRU结合构建分类模型。实验结果表明,CNN与RNN的结合,解决了视频中时间维度利用不足的问题,更有效的整合足球视频中时间维度和空间维度的动态信息,实现比传统技术更高的精度和更快的速度。目前该模型对足球视频数据集上的某单一事件识别率最高达到97.4%。

足球是世界第一大运动,有着广泛的收视群体,但一场足球比赛的时间较长,要从海量的视频数据中快速找到用户关注的内容,仅仅依靠传统的人工剪辑分类是十分困难的。早期的足球视频分类领域的研究主要是通过人工制定规则结合机器学习的方式来进行事件检测,此方法受制于人为设定的经验参数且不具备可扩展性。目前随着计算机视觉的发展,利用深度学习的方法处理足球视频问题已取得了重大进展。

在足球语义规则的处理上,传统的机器学习方法广泛应用于视频分类检测中,常见方法有支持向量机、贝叶斯网络、隐马尔可夫模型等,这些方法基于多种人工设定的特征进行场景分类,如图像特征、用颜色、纹理和形状等底层特征。此外,研究人员还常借助视频相关的文本、音频、回放镜头等多种信息形成多模态特征以实现事件的检测[1] [2] [3]。Naveed 等将混合特征用于模型训练,使用HOG、SIFT、LBP 等作为训练系统的特征集[4]。Pandya 等提出一种基于精确边界预测的时序动作检测方法,以光流的变化来获取足球视频中的事件[5]。

相较于传统的场景分类方法,深度学习能够通过一些简单模型将接收到的原始数据转化为更易于人类理解的语义特征,进而能够实现更有效的视频分类。针对深度学习在动作识别领域的研究,Ji 等提出了一种在视频的时间和空间上卷积的三维卷积方式, 将多个卷积层和下采样层串联构成动作识别网络[6]。

Song 等结合视频帧序列和光流序列,利用I3D 网络对视频单元进行分类,输出每个视频单元的预测概率值,在此基础上再利用分组方法将相邻的片段组合在一起以定位事件的边界[7]。Cheng 等采用3DCNN和CNN 分别提取足球视频特征和音频特征, 并进行多模态融合[8]。

文献[9] [10] [11] [12]针对动作检测问题分别提出新的CNN 结构,使用CNN 对动作类型进行识别,利用滑动窗口实现事件边界确定。

可见在足球视频处理中,CNN 的卷积层能够很好地感知图像的局部特征,感知数据点与周围数据点之间的关系[13]。但数据在CNN 中只能单向流动且仅考虑每个时间步的当前输入,可能导致之前退化信息的丢失,而将CNN 与RNN 结合可以有效提取被CNN 忽略的时序特征,提高特征提取的准确度。本文即是基于CNN-BiGRU 网络训练了一个事件分类模型,实现足球赛事的视频片段分类。

2. 算法设计 视频事件类型识别以切分好的视频片段为研究对象,通过搭建不同神经网络(GoogleNet、ResNet50、



相关标签