微整容给在日常生产中给人脸识别技术带来了新的挑战,因人脸特征变化较大导致对原人脸正确识别率较低,针对现象,该实验提出了一种混合型自我注意力块结构,用于识别面部特征变化的人脸,为此自制了26类微整容小样本图片数据集。将自我注意力融合到残差网络的瓶颈块中,提高了混合型自我注意力块对图片各区域特征的捕获能力,在对小样本微整容数据集的实验表明,该实验提出的混合型自我注意力网络有较高的正确识别率:89.70%,相比ResNet50正确识别率提高了2.65%,改进连接的混合型自我注意力模型比未改进连接的混合型自我注意力模型正确识别率提高了1.12%,网络性能也有所提升。
人脸识别技术在国防安全、视频监控、逃犯追踪和身份认证等方面发挥着重要作用。近年来,“深度学习”一词蔓延到了众多领域,在人工智能领域(Artificial Intelligence, AI)中,我们理解的深度学习(Deep Learning, DL)是类似人脑结构的多层网络结构, 其学习过程也高度模仿了人脑对事物认知的基本过程,通过某种指定方式的训练后,会像人脑一样对指定的事物进行计算、分辨判断和自我优化。深度学习在图像分类、目标检测和实例分割等任务中学习和优化[1],在大量深度学习众多图片识别的网络架构里卷积神经网络[2] (Convolutional Neural Network, CNN)是优选之一。在CNN 架构中随着网络层的加深可以提取更多易于识别的特征信息,对普通网络(Plain Network)而言,随着CNN 网络层数的加深,难以用优化的算法训练,并且其特有的网络性能也会逐步退化,其根本原因就是随网络层的加深,梯度也会逐步消失。为此,何凯明队在普通网络的基础上设计了残差网络[3] (ResNets),在深层网络中加入残差设计,可以通过对残差块(Residual Block) [4]做计算来优化网络性能,梯度消失问题得到了解决。
ResNets 在过去几年是深度学习的首先网络,但是随着数据量的增加,ResNets 也面临着通过加深网络层数来提高模型鲁棒性的挑战。
近几年, 随着自我注意力机制(Self-Attention) [5]在自然语言处理(Natural Language Processing, NLP) [6]领域中愈加火热,研究者们最终将Self-Attention 的优势运用到计算机视觉(Computer Vision, CV) [7],研究出了远近交互性较强的一些网络模型(有:纯注意力模型的SANet [8]和Axial-SASA [9],早期他们提出Self-Attention 可以作为卷积模块的增强,以及另一种方向混合注意力模型的AA-ResNet [10]和BotNet [11]是将CNN 与Self-attention 结合在单个块内),本文提出了一个新观点也属于混合注意力网络模型(Hybrid Self-Attention Net, HSANet):用Self-Attention 替换ResNet50 Blotteneck块的3 3conv ×,并将块内3 3conv ×放在了Identity 连接上,再把Relu 激活函数移到快外,重造了结构类似于Blotteneck 块的混合型Self-Attention 块。
2. 相关知识 2.1. CNN 存在问题 适于监督学习的大多数CNN 模型, 面临着海量数据和捕获卷积长距离交互挑战, 最初对于这些困难,