多任务对比学习的自监督视频表达

发布日期:2023年3月28日
多任务对比学习的自监督视频表达 多任务对比学习的自监督视频表达

本内容试读结束

下载后可阅读完整内容,立即下载

现有的自监督学习使用单一的空间或时间代理任务。单一的代理任务,从未标记的数据中提供单一的监督信号,不足以描述视频表示学习的空间特征和时间特征之间的差异。在本文中,我们提出了一个多任务对比学习方法,它通过对多个时空代理任务的对比学习,在时空自注意力的情况下学习有区别的时空特征。不同的空间代理任务学习不同的空间特征,包括空间旋转和空间拼图。不同的时间代理任务学习不同的时间特征,包括时间顺序和时间节奏。我们将视频表示为每个代理任务的多个不同特征,并设计基于代理任务的对比损失来分离一个视频中学习的空间特征和时间特征。基于代理任务的对比损失鼓励不同代理任务学习不同的特征,同一代理任务学习相似的特征,可以学习到同一视频中每个代理任务的判别特征。实验表明,在UCF-101数据集和HMDB-51数据集的行为识别上优于现有的自监督学习方法。

视频表达的自监督学习可以从未标记的数据中提取时空特征,不仅减少了昂贵的手工标注需求,而且可以为下游的有监督任务学习到泛化能力很强的视频表达, 因此在视频分析应用中具有很大的必要性。

自监督方法生成无注释标签作为代理任务。在现有的代理任务中,有的方法通过单一的空间变换学习空间特征[1] [2],有的方法通过单一的时间变换来学习时间特征,其中有时间顺序预测[3]、时间速度预测[4] [5]、时间连续性预测[6],有的方法通过时空变换变换[7]来学习时空特征,有的方法通过多个代理任务[8]学习一些时间特征。然而上述方法忽略了描述不同视频之间的特征差异,这可能会在动作相似的视频中造成混淆。针对这一问题,一些自监督方法通过基于实例的对比学习对视频特征进行改进,这种方法可以为每个代理任务学习不同视频的不同特征[9] [10]。有些方法通过设计多个代理任务进行对比学习来学习视频特征[11] [12]。

然而, 上述方法学习到的特征忽略了描述在多个代理任务中学习到的空间特征和时间特征之间的差异。因此设计一个具有对比学习的自监督视频表示模型仍然是一个挑战。

图1 显示了我们的多任务包含2 个时间代理任务(时间速度代理任务、时间排序代理任务)和2 个空间代理任务(空间旋转代理任务、空间拼图代理任务)。在没有对比学习的情况下, 多任务学习方法无法学习时间代理任务和空间代理任务的差异性,从而导致视频特征表达精度损失。因此本文引入对比学习可以对多任务学习到的时空特征进行分离,避免信息混淆,捕捉更详细的时空信息。

本文中提出了多任务对比学习方法,该方法通过学习不同时空代理任务中不同的特征来解决基于代理任务的对比学习问题。然后,为了增强时空特征,该方法引入注意力特征提取模块来捕捉视频帧空间通道关系和视频帧之间的时间关系。

首先,本文利用多任务学习特征,让网络可以同时学习到时间特征和空间特征,包括时间顺序预测、时间速度预测、空间旋转预测和空间拼图预测。本文设计任务级的对比学习来区别时间代理任务和空间代理任务学习的特征。

本文设置在同一类代理任务(2 个时间代理任务或者2 个空间代理任务)中学习到的特征作为正例,在不同类代理任务(1 个时间代理任务和1 个空间代理任务)学习到的特征作为负例。与基于实例的对比损失相比,本文的代理任务的对比损失使网络能够描述一个视频中更多的时空变化。



相关标签