由于弱监督时序定位模型没有帧级的监督信号,模型识别动作实例在边界处容易出现两个问题:过多地关注动作最具识别的部分,忽略了动作的其他部分而导致了动作的欠定位;动作的边界处与背景极其相似,模型难以区分而导致了动作的过定位。为了进一步有效的分类动作片段,改善边界困难样本的欠定位和过定位问题,提出了一种两阶段的弱监督时序定位。该方法分为两个阶段,第一阶段中我们对输入的视频帧提取RGB和光流特征,设计一种困难样本挖掘策略,得到边界的困难样本集合和易动作样本集合。另外,我们设计了一种原型生成模块,得到了每个动作类别的原型中心,将第二阶段的动作分类任务转换成嵌入空间与原型中心的距离问题。在第二阶段中,输入第一阶段得到的困难样本集合,使用原型匹配模块得到特定的时间类激活图。另外光流特征因其表达动态的特性,应当给予重视。本文设计了一种困难样本集合与易动作样本集合进行相似度计算得到增强光流特征的方法,实现边界困难样本更加准确地动作预测。最后为了进一步优化模型预测的动作标签,采用伪标签策略,为模型提供有效的帧级监督信号。在THUMOS’14和ActivityNet v1.2数据集进行实验论证。实验结果表明,方法性能优于现有弱监督时序定位方法。
时序动作定位的目的是在未裁剪的视频中找到动作开始和结束的位置。由于其在监视分析、视频汇总和检索等方面的广泛应用,学者们越来越重视时序动作定位的研究。传统上,强监督需要对每个视频中的每个动作实例进行起始和结束时刻的标注,这耗费了巨大的人力和算力,因此,只需要视频级标签的弱监督时序定位受到了越来越多的关注。弱监督时序定位的基本挑战在于视频动作分类和多个动作实例之间的映射关系,通过映射关系得到动作提议。现有的弱监督时序定位主要有两个分支,分别是基于多实例学习的和基于注意力机制的。基于多实例学习的机制[1] [2] [3] [4] [5]首先获得帧级动作分类分数, 即类激活序列CAS,然后使用top-k 来选择包中的正例,构建视频级动作分类分数。另一种基于注意力的机制[6] [7] [8] [9] [10]直接从原始数据中预测帧级动作概率,将其作为注意力计算视频级的分类概率, 从而得到模型的优化。然而这种方式存在着分类和检测之间的矛盾,即分类总是关注显著性高的片段, 而检测应该不遗漏的发现整个动作实例,二者的矛盾导致了模型不好的表现。综上,由于缺乏帧级监督, 两种方法都无法对前景和背景进行准确的分离,直接导致了模型不好的表现。
弱监督时序定位的前景是具有特定意图的连续动作模式, 具有前景持续时间的变化范围大、前景和背景的边界处极其相似这两个特点。
针对前景持续时间的变化范围大这一特点, 我们发现模型预测的动作提议常出现欠定位的问题,即原本是动作的部分被误认为是背景,导致动作提议的割裂;针对前景和背景的