基于双分支自注意力的密集人群计数算法

发布日期:2024年4月9日
基于双分支自注意力的密集人群计数算法 基于双分支自注意力的密集人群计数算法

本内容试读结束

下载后可阅读完整内容,立即下载

及时、准确的进行人流监控及预警是公共安全管理的迫切需求,使用基于计算机视觉的人群计数方法是满足该需求的主要方法之一。针对现有计数模型对人员前景特征和背景特征的关联不够的问题,设计基于双分支自注意力机制的密集人群计数算法。在视觉主干网络之后使用双分支自注意力模块,以促使网络关注有效的人员区域,提升主干网络的特征精炼能力。在Shanghai Tech PART B和UCF-QNRF数据集上进行大量的实验,消融实验的结果证明所提出的模块提升了人群计数的准确性。此外,实验结果表明所提出方法获得比其他经典方法更好的实验结果。

人群计数在公共安全管理中发挥着重要作用,特别是在音乐会、体育赛事和庆祝活动等人群密集的场景中。如果没有恰当的管理措施,踩踏事件就很容易发生,避免踩踏事件发生的重要抓手就是及时、准确的进行人流监控及预警。由于视角遮挡和人员分布散乱,人群计数是一项具有挑战性的任务。为了解决这些问题,人们做了许多研究。其中,基于CNN 的回归方法以人群图像为输入,生成密度图,进一步累积得到人数。同一图像中的头部大小可能会有很大差异,这对CNN 提取尺度不变特征造成了影响。

许多方法都致力于解决这个问题,包括多列网络、规模聚合模块和规模不变性体系结构等。典型的多列融合方法包括多列融合[1]和深浅网络融合[2]。典型的规模聚合模块[3] [4]按不同的核大小聚合规模不变特征。典型的规模不变性架构[5] [6]侧重于单列架构的设计。

本文基于注意力机制[7],利用语义特征和位置特征之间的关系进行建模,在主干网络的输出后使用双分支自注意力模块。该模块通过注意力计算机制细化行人特征,提取对计数有用的特征而抑制无关特征, 有效减少了网络输出中显示的误差响应。

实验表明, 该模块可以提高准确性和鲁棒性。

在Shanghai Tech PART B 和UCF-QNRF 两个人群数据集上评估了我们的方法。结果表明,我们的方法获得了比其他经典方法更好的性能。

2. 相关工作 2.1. 注意力机制 注意力机制[7]-[14]在图像分类、目标检测领域得到了广泛的应用,它促使模型在图像中动态地分配注意力,从而更好地捕捉图像不同区域之间的全局关联性,有效增强了模型的性能。自注意力[7]关注序列中不同位置之间的关系,促使模型关注那些重要的图像区域,在密集人群计数任务中,行人与背景之间的位置关系是重要的,通过注意力机制可以细化行人信息,抑制背景信息对计数任务的干扰,以获取重要的行人特征信息,生成更准确的特征图。在深度神经网络中,不同特征映射中的不同通道通常代表不同的对象[8]。

文献[9]首先提出了通道注意力的概念, 并提出了SENet [9]。

通道注意力[9] [10]可以自适应地重新校准每个通道的权重,相当于一个对象选择过程,最终选择重要的通道信息。空间注意力[11] [12]是一种适应性的空间区域选择机制,可以生成跨空间域的注意力掩码,并使用它来选择重要的空间区域或直接预测最相关的空间位置。

分支注意力[13] [14]是一种动态的分支选择机制, 可以生成跨不同分支的注意力掩码,并使用它来选择重要的分支。



相关标签