PDID:视觉离散化智能问答模型——基于图像像素离散化和图像语义离散化的VQA模型

发布日期:2023年12月29日
PDID:视觉离散化智能问答模型——基于图像像素离散化和图像语义离散化的VQA模型 PDID:视觉离散化智能问答模型——基于图像像素离散化和图像语义离散化的VQA模型

本内容试读结束

下载后可阅读完整内容,立即下载

视觉问答是一项具有挑战性的多模态任务,它连接了计算机视觉和自然语言处理两个领域。在这项任务中,模型需要根据给定的图片和相关问题,有效地提取信息并给出正确答案。然而,由于图像和文本属于不同的模态,存在着严重的语义差异,因此如何有效地将不同模态的信息对齐并减少语义差异,是当前视觉问答领域的重点关注问题。本文针对当前视觉问答方法在多模态对齐阶段图像和文本信息颗粒度的巨大差异,提出了基于视觉离散化(PDID: Pixel Discretization and Instance Discretization)的智能问答模型并辅助以模态注意力机制完成跨模态信息和语义对齐。图像以像素为最小单位的特征数据与文本以单词为最小单位的特征数据,它们在数据的信息颗粒度上存在巨大的差异,即语言通过至多数万单词即可完成整个文本语义空间的构建,而图像则是通过亿级的RGB三原色数组构建而成。这说明了直接建模以像素为单位的图像是很难和文本做好对齐的。本文通过了多种图像离散化的方式,一方面通过离散化图像像素,以颜色离散化、强度离散化、纹理离散化、空间离散化四种形式将图像像素完成离散化,在数量级上逼近文本特征的最小基元数量;另一方面通过图像语义特征的软编码,离散化图像深层次的语义特征,将图像的语义特征与文本的单词语义对齐,在语义层面上逼近文本特征的单词语义信息量。除此以外,本文提出了一种新型的视觉关系融合模块,视觉关系融合模块用来捕获同种模态内离散化特征和连续特征的交互信息,为模型提供丰富的视觉特征。本文先使用自注意力方法提取模态内特征之间的相关性,即提取视觉全局关系,再使用通道空间分离注意力进行跨模态结合,为局部引导的全局特征提供更大的表示空间和更多的补充信息。为了验证本方法的有效性,在VQA-v2,COCO-QA,VQA-CP v2数据集上进行了广泛实验,充分验证了该方法在视觉问答任务中的基于离散机制的视觉问答研究有效性。同时也体现了该模型在其他跨模态任务(图像文本匹配、指示表达)中仍有很强的泛化能力。

视觉问答(Visual Question Answering, VQA)代表着跨学科研究的前沿, 融合了计算机视觉和自然语言处理领域。VQA 系统旨在解释和回答关于数字图像的问题,这是一项需要对视觉内容和语言语义进行精准理解的任务。

将图像离散化集成到VQA 系统中已成为该领域的重要发展。

图像离散化涉及将连续的图像数据转换为离散形式, 从而促进更高效和准确的分析。

这一方法显著增强了VQA 系统处理复杂视觉数据的能力,带来了更好的性能和可靠性。

本文旨在深入探讨图像离散化在VQA 中的应用。

本文探讨这一方法如何将原始图像数据转换为更适合进行分析和与自然语言组件交互的格式。本文将从像素信息离散化和图像语义离散化两个角度分别建模,讨论将涵盖图像离散化的理论基础、在VQA 中的应用、其带来的益处以及所面临的挑战。

现实世界的图像通常多变而复杂,包含各种颜色、纹理和物体。图像离散化有助于标准化这些数据, 简化对多样化视觉输入进行分析和解释的任务。在图像质量、光照或构图方面不理想的场景中,这种标准化特别有益。

图像离散化还提高了VQA 系统的效率。

处理连续的视觉数据可能会在计算上具有较大的消耗且耗时。通过将图像转换为离散格式,这些系统能够更快速地处理视觉信息,实现更快的响应时间。

这种效率对于需要及时响应的应用非常关键。此外,图像离散化促进了先进的机器学习和深度学习模型在VQA 中的整合。这些模型,尤其是卷积神经网络(CNNs),在分析离散化的图像方面非常有效。它们能够从这些图像中提取复杂的模式和特征,这对于回答复杂而详细的问题至关重要。图像离散化与深度学习之间的协同作用显著拓展了VQA 系统的能力。

2. 背景 2.1. VQA 概述 一个VQA 模型需要多种技术、工具协作完成,根据这些技术、工具的作用不同可以将VQA 模型分为四个阶段,分别为:特征提取阶段(提取图像特征和文本特征);多模态特征对齐阶段;多模态特征融合阶段以及答案预测阶段。提取图像特征需要用到卷积神经网络(Convolutional Neural Network, CNN),如 ResNet [1]、Faster R-CNN [2]等;提取文本特征需要用到Glove 词嵌入[3], 循环神经网络(Recurrent Neural Network, RNN) [4],如长短期记忆网络(Long Short-Term Memory, LSTM) [5]、门控循环网络(Gate Re-current Unit, GRU) [6]等;在多模态特征对齐阶段,为了充分的挖掘图像特征和文本特征的关系需要用到注意力机制(Attention Mechanism, AM) [7];对于多模态特征的融合需要用到加法、拼接、相乘、多模态低秩双线性池化(Multimodal Low-Rank Bilinear, MLB) [8]等融合方法;在答案预测阶段选择多层感知机(Multi-Layer Perception, MLP) [9]进行答案预测。上述的几个阶段中,目前的研究难点在于如何进行多模态特征对齐,也即如何充分的挖掘不同模态特征间的关系,最大程度减少不同模态信息间的语义鸿沟, 因此如何搭建一个具有高效跨模态信息对齐能力的 VQA 模型仍然是人工智能领域的一个热点问题。如图1 所示,目前的基线模型在预测上仍然存在很大问题,即模型的预测分布极大程度依赖于问题,导致answer 的分布非常容易向着高频率答案偏移。

2.2. 图像特征提取概述 目前绝大多数的方法,除去在融合部分的注意力机制的添加,都可以归纳为联合嵌入模型。基于联合嵌入的方法是指:将输入的图像和问题映射到相同的子空间进行答案的预测。对于该方法而言,如何将不同模态信息映射到相同的子空间变得十分重要。早期对不同模态特征大多采用线性融合方法,例如:相加、相乘、拼接等方式。Malinowski 等人[10]提出了一种名为“Neural-Image-QA”的方法,该方法首



相关标签