基于多模态注意机制的深度神经网络模型,提出了一种针对全域视频的多语言描述自动生成技术。视频描述自动生成模型由端到端的卷积神经网络和双向循环神经网络组成,应用多模态注意机制,显著提升了模型的视频表征能力。通过构建双向循环神经网络编码器,对图像、光流、C3D以及音频等4种多模态视频特征进行融合编码,并引入基于注意机制的解码器,将编码获得的视频序列化特征最终解码为多语言描述序列。模型在开源视频描述数据集上进行了测试实验,实验结果表明了该方法的有效性,其中METEOR值提升了3.31%,为目前已公开的最佳结果。因此,该技术可作为相关领域研究的重要参考。
作为对视频的一种高级语义理解,全域视频描述自动生成技术有着广泛的应用,例如为海量视频数据进行自动打标、分类管理,为视障人士提供描述视频服务(DVS)等。视频自然语言描述生成技术是人工智能领域中复杂度较高的任务, 自2012 年以来受到了计算机视觉和自然语言处理领域的极大关注[1] [2]。
随着深度学习模型的发展,很多优秀的方法被提出,如Venugopalan [3]等人设计的使用循环神经网络(RNN)来训练图像和描述语句之间的双向映射关系,深度学习模型已成功应用于视频描述自动生成技术[4]。然而,即使是目前最优的模型生成的描述语句也存在不通顺、内容不符等问题,如何提高描述语句准确率仍然是一项困难的工作。除此之外,由于任务的复杂性,生成全域视频内容中文描述语句鲜有研究,难度更高。
2. 技术现状 视频的自然语言描述生成技术受到了图像描述生成技术[5]的启发,早期主要研究简单视频场景下固定动作的语言描述[6],随着深度学习技术的发展,逐渐扩展为全域短视频中复杂和未知行为的描述生成[7] [8]。
深度学习方法大多遵循编码器–解码器架构, Xu 等人[9]将基础CNNs 转换为多个完全CNNs (FCN), 以形成用于生成全域短视频描述的多维度网络。
Pasunuru 等人[10]提出了一种新的多任务学习模型, 该模型基于注意机制在编码器和解码器之间共享参数。
王金金等人[11]提出了基于扩张卷积的注意力机制视频描述模型,采用Inception-v4 对视频特征进行编码,并在MSVD 数据集上取得了之前的最佳结果。然而, 以上模型缺乏对图像特征以外的其它重要视频特征的研究,结果的准确性有待提高。
一些关于全域视频描述自动生成的研究[12] [13] [14]考虑了其它模态的视频信息,如音频特征、C3D特征等。然而,它们在编解码阶段使用的是基础LSTM 模型,没有充分利用多模态信息,导致结果差强