视觉问答是一项涉及图像和文本的多模态任务,给定一个图像和一个用自然语言表达的问题,视觉问答系统需要对视觉和文本信息同时进行复杂的理解,提供关于图像的这个问题的准确答案。现有的视觉问答模型在获取与问题相关的图像区域时,不能有效利用文本与图像信息的多层次特征信息,因此,我们使用自注意记忆层,使得所得特征的每一层包含之前的先验知识。同时利用交叉记忆模块,在解码端的所有引导注意力层中输入编码端的各级加权特征,通过引导注意力,融合低层次与高层次信息,使用多层次信息更好地关注图像特征中的关键区域。本文在VQA v2.0数据集上进行了对比实验,表明该模型能充分利用图像和文本的多层次特征信息,与当前主流模型相比更具优越性。
随着社交媒体的飞速发展,图片、文字以及视频等多种类型的数据量迅速增长,数据的模态逐渐多样化,视频、图片、文本等数据可以得到一个物体的各方面互补信息,促进了多模态学习[1]的发展。近来,多模态视觉问答任务[2]不断发展,逐渐应用在教育、医疗以及媒体等多个领域[3] [4],其目的是开发一个系统来回答关于输入图像的特定问题。答案可以是以下任意形式:单词、短语、二进制答案、多选答案或填空答案。与其他任务相比,视觉问答任务需要对图像和文本进行细粒度的语义理解,图片和视频等视觉信息的表达能力和信息涵盖能力比文本更强, 如何通过交互式的方法从视觉信息中提取信息、过滤信息以及推理信息,是视觉问答研究的热点方向。
视觉问答任务涉及到特征提取、知识推理、特征融合[5]等复杂技术,需要识别文本的语义信息以及图片中的物体属性以及空间关系等信息,还需要进行一定的推理。如图1 所示,视觉问答任务作为一个典型的多模态问题,其主要步骤一共有三个:1) 对图像特征和文本特征的提取,利用计算机视觉以及自然语言处理的相关技术,获取图像和文本中丰富的语义信息;2) 在获取图像和文本的语义信息后,要求模型同时理解不同模态的特征,建立视觉与语言模态之间的关联;3) 如何利用融合后的特征推理得出问题的正确答案。为解决这些问题,众多视觉问答模型使用特征融合、注意力机制、模块化网络等多种方法。
Figure 1. Composition of visual question answering system 图1. 视觉问答系统组成