基于时空Transformer的端到端的视频注视目标检测

发布日期:2024年4月18日
基于时空Transformer的端到端的视频注视目标检测 基于时空Transformer的端到端的视频注视目标检测

本内容试读结束

下载后可阅读完整内容,立即下载

注视目标检测旨在定位人的注视目标。HGTTR的提出,将Transformer结构用于注视目标检测的任务中,解决了卷积神经网络需要额外的头部探测器的问题,实现了端到端的对头部位置和注视目标的同时检测,并且实现了优于传统的卷积神经网络的性能。然而,目前的方法在视频数据集上的性能还有较大提升空间。原因在于,当前的方法侧重于在单个视频帧中学习人的注视目标,没有对视频中的时间变化进行建模,所以无法解决动态注视、镜头失焦、运动模糊等问题。当一个人的注视目标在不断的发生变化时,缺乏时间变化建模可能会导致定位注视目标偏离人的真实注视目标。并且由于缺乏对于时间维度上的建模,模型无法解决因为镜头失焦和运动模糊等问题所导致的特征缺失。在这项工作当中,我们提出了一种基于时空Transformer的端到端的视频注视目标检测模型。首先,我们提出帧间局部可变形注意力机制,用于处理特征缺失的问题。其次,我们在可变形注意力机制的基础上,提出帧间可变形注意力机制,利用相邻视频帧的时序差异,动态选择采样点,从而实现对于动态注视的建模。最后,我们提出了时序Transformer来聚合由当前帧和参考帧的注视关系查询向量和注视关系特征。我们的时序Transformer包含三个部分:用于编码多帧空间信息的时序注视关系特征编码器,用于融合注视关系查询的时序注视关系查询编码器以及用于获取当前帧检测结果的时序注视关系解码器。通过对于单个帧空间、相邻帧间以及帧序列三个维度的时空建模,很好的解决了视频数据中常见的动态注视、镜头失焦、运动模糊等问题。大量实验证明,我们的方法在VideoAttentionTarget和VideoCoAtt两个数据集上均取得了较为优异的性能。

注视目标检测是计算机视觉领域中的一项重要的研究任务, 旨在定位图像(视频帧)中的每个人物的头部位置和相应的注视目标位置,是很多视觉任务的基础性工作。视频注视目标检测旨在视频数据中检测每个视频帧中所有人物的注视目标。随着深度学习技术的发展和计算资源的不断提升,视频注视目标检测在自动驾驶、智能监控、人机交互等领域具有广泛的应用前景,因而近年来引起了人们较大的研究兴趣。

基于深度学习的注视目标检测方法能够克服基于几何特征的方法[1]对于使用环境存在限制的问题, 因为后者必须通过眼部特征对视线进行估计。利用深度网络对场景和头部姿态等信息进行提取和处理,



相关标签