图像问答是深度学习在计算机视觉领域成功应用的主要方向之一,在人工智能、自然语言处理、图像识别等方面有着广泛应用。图像问答的准确率不仅与图像问答系统中特征融合模块的设计有关,而且与图像特征与问题特征语义层次匹配程度有关。本文首先将图像的文本特征和视觉特征融合后作为图像增强特征,之后对问题提取文本特征,再加入注意力机制,将图像增强特征与问题文本特征进行特征融合,对融合特征做出答案预测。实验结果表明,本文方法可以解决图像特征与文本特征层次不匹配的问题,提高图像问答系统的准确率。
图像问答是指给定一张图像和一个用自然语言描述的问题,计算机能自主根据图像内容做出相应回答的过程,它是深度学习在计算机视觉领域成功应用的主要研究方向之一。随着人工智能、自然语言处理、深度学习、图像识别等技术的发展,图像问答在汽车导航、盲人识路、机器人系统等领域有广泛应用[1]。
图像问答的实现方式主要采用CNN-RNN 框架[2] [3] [4]。其中,CNN 为卷积神经网络,主要用于图像特征提取,RNN 为循环神经网络,主要对问题文本特征的提取。由于CNN 使用了全局图像特征来表示输入图像,会导致一些无关或噪音信息输入到问答模块,对生成答案造成干扰,因此,将注意力机制引入到CNN-RNN 框架中并与图像问答相结合的方法已成为图像问答系统的主流方法[5]。
Li 等人[6]提出基于属性和描述的图像问答并引入注意力机制,将任务拆分为解释和推理两个步骤,首先理解图像的内容, 然后根据理解对答案进行推理。
Yuan 等人[7]提出基于图像全局–局部特征以及注意力机制的图像文本描述算法,充分利用了图像的全局和局部特征。Liu 等人[8]提出构建联合多图像特征的Global-Local Fusion 模型来做信息增广, 采用混阶注意力模型来提取与问题相关的局部特征信息。
Yu 等人[9]提出基于图注意力网络的视觉问答,将注意力机制先后用于图像的一元表达和二元表达上,把图像建模成一个图模型,图注意力模型就是在图像的图结构表达上进行推理。Lin 等人[10]提出多级注意力机制视觉问答模型,基于注意力机制的算法,利用问题的多重文本粒度来融合各种特征。这些方法都是使用CNN 提取图像视觉特征与问题文本特征直接进行融合,再加入注意力机制生成每个图像区域的权重,视觉特征的不完整以及权重的选取都会导致图像特征与问题特征语义层次的不匹配,影响图像问答的结果。
针对图像特征与问题特征语义层次不匹配的问题,本文分别对图像进行视觉特征提取和图像文本特征提取并将两种特征合并后作为图像的增强特征,然后再对问题提取问题文本特征,采用MCB 的融合方式进行特征融合,最后模型对融合特征做出答案预测。在问题的特征提取中采用了长短期记忆网络LSTM,在图像的特征提取中采用VGG-16 模型和Neural 模型相结合的方法,提取图像的视觉特征和文本特征,并将两种特征融合作为图像的增强特征与问题文本特征进行MCB 融合后进行答案预测,提高图像问答系统的准确率。