不同于单张图像超分辨,视频超分辨需要时空联合考虑以处理连续的低分辨视频从而获取清晰的高分辨连续帧序列。当前,随着深度学习在视频超分辨领域的广泛应用,深度视频超分辨虽已取得显著效果,但仍然存在视频特征信息挖掘不足的问题。特别是,从时间维度看,充分提取连续的视频时空特征并有效融合这些特征来实现帧内细腻、帧间稳定的视频超分辨,仍然是当前视频超分辨率研究的主要问题。在这项工作中,本文提出了一个基于增强特征对齐循环结构的视频超分辨网络。首先,我们通过多分支的特征提取模块从不同的深度对输入的特征进行信息提取。其次,在增强特征对齐循环结构中,本文提出从当前帧的多个方向上同时融合相邻帧的信息,并使用相应方向上的光流信息进行辅助对齐。最后,本文提出在多个上采样尺度上对超分结果进行增强。实验结果表明,所提出的方法能获得细节清晰、帧序列稳定的视频超分辨效果,在定量的评估指标和定性的可视化结果等方面都超越了近些年的其他先进方法。
视频超分辨是指从输入的低分辨视频中恢复出带有细节清晰和帧内连续的高分辨率图像帧序列,是计算机视觉中的一项基本任务。视频超分技术在我们的日常生活中具有重要价值,该技术被广泛应用于高清视频播放、视频监督和刑侦[1]等领域。由于连续的图像帧之间具有高度的相关性,解决不同帧的时空特征的充分融合仍然是当前视频超分辨的主要挑战。
在早期的基于传统方法的视频超分辨算法中, Schultz 等人[2]通过仿射模型去简单地估计帧间的运动信息。Liu 等人[3]提出了一种贝叶斯方法,用于同时估计潜在的运动、模糊核和噪声水平,并重建高分辨率帧。Ma 等人[4]采用了期望最大化方法估计模糊核,指导高分辨率帧的重建。然而,这些不能够适应视频中的各种场景,没有很好的泛化性。
近年来,随着深度学习的快速发展,基于卷积神经网络的视频超分辨算法能够在庞大的数据集上学习低分辨率视频和高分辨率视频之间复杂的映射关系。与传统方法相比,这些方法显著提高了性能。当前,这些基于深度学习去实现视频超分算法的框架大体可以分成两类:一类是基于滑动窗口的方法,另一类是基于循环神经网络的方法。
基于滑动窗口的方法, 如基于时空相关性的视频超分辨率重建算法[5]、VESPCN [6]、TDAN [7]、EDVR [8]等方法,通常先在滑动窗口中通过空间卷绕的方式将所有的输入帧显式或隐式地对齐到中间帧上,然后进行信息融合,最后输出中间帧的超分辨率结果。这种方法的优势是能够比较充分地利用所有的输入帧的信息,并将其增强到中间帧上,达到局部最好的效果。但是由于可以利用的视频帧的数量有限,当在中间帧附近发生遮挡等特殊情况,由于不能借鉴到有用信息,则会导