基于知识蒸馏的实时动作预测方法研究

发布日期:2020年5月14日
基于知识蒸馏的实时动作预测方法研究 基于知识蒸馏的实时动作预测方法研究

本内容试读结束

下载后可阅读完整内容,立即下载

动作预测是一类特殊的动作识别问题,不同于针对完整动作的传统动作识别,动作预测旨在动作尚未完成时尽可能早地识别动作所属的类别,以便对该动作可能造成的影响进行分析,从而实现事故预警、智能陪护、犯罪预警等目标。本文针对实时动作预测问题提出一种应用知识蒸馏技术的多阶段LSTM实时动作预测方法。本文中的动作预测模型为两阶段的LSTM模型,在第一阶段利用全局特征对动作进行分析,第二阶段利用全局特征与动作特征对动作进行分析。为提高动作预测模型的性能,本文利用知识蒸馏技术并设计新型的损失函数提高动作预测模型的性能。UT-Interaction数据集、JHMDB-21数据集以及UCF-101数据集的实验结果表明本文所提出的动作预测方法不但具有良好的动作预测能力,而且能够满足实际应用中的实时性要求。

随着人工智能技术的快速发展,作为计算机视觉领域热门研究方向的动作预测技术在自动驾驶、智能视频监控、人机交互、智能医疗看护等多个领域具有十分广阔的应用前景。

动作预测是指实时对输入的视频序列进行分析处理,从而在该视频中所包含的动作尚未执行完之前尽可能早地对其动作类别进行识别。因此动作预测是对正在进行中的动作进行识别,属于一类特殊的动作识别技术。传统动作识别技术是对视频序列中已经完成的动作进行识别,而动作预测技术则是对视频序列中正在发生的动作进行识别。因此,动作预测技术与传统动作识别技术的不同之处在于视频序列中动作的完整性。在实际场景中,某些动作在动作早期在外观上具有相似性,例如“拥抱”和“握手”这两个动作在动作开始时都存在手臂前伸的举动,动作外观的相似性导致从部分视频序列中分析提取的特征是相似的,两个动作特征向量之间的距离较小,使预测模型无法有效对上述两个动作进行识别,增加了预测问题的难度。在对视频序列的观测结束之前,预测算法无法获取动作执行完毕所需要的时间,不能够确定动作的完成程度,无法通过动作持续时间的不同对动作进行识别。因此,从已经观测的部分视频序列中所提取的动作特征往往既不能提供用于识别这些动作的关键信息,也不能直接用于获取完整动作的时序结构。因此,与动作识别技术相比,动作预测技术具有关键动作特征信息缺乏和完整时序动作结构未知这两个特点,因此动作预测技术与动作识别技术相比更加具有挑战性。

为解决动作预测中动作早期可利用关键信息较少的难点,本文设计了基于知识蒸馏的多阶段LSTM动作预测模型,第一阶段考虑全局特征,第二阶段综合考虑全局特征与动作特征,充分利用上述两种特征对动作进行预测。为增加可用的关键信息,利用知识蒸馏技术将知识迁移到动作预测模型中,从而增强动作预测模型的性能。

为充分发挥所设计架构的性能, 设计了合适的损失函数以提高模型的预测性能。



相关标签