红外图像和可见光图像融合广泛应用于夜视、监视、军事等领域。融合任务的重点在于将可见光和红外光图像中的互补信息整合起来并消除多余信息。此外,大多数融合任务是在低光环境下进行的,如何保持融合结果的照明信息值得研究。为了解决存在的问题,首先,我们设计了一个多级特征模块来融合多源信息。与传统网络的并行层融合策略不同,我们提出了一种并行层和深度层相结合的融合策略。其次,我们在特征提取网络中增加了注意力计算,以提高特征提取网络的性能。第三,为了使融合图像具有良好的照明信息,我们设计了区域照明保留模块,提高了低光环境下融合算法的性能。大量实验证明了所提出的方法具有出色的性能,并且在低光环境下表现更好。此外,所提出的算法在多模式物体检测方面也显示出巨大潜力。
在复杂环境下, 单个摄像机获得的图像信息是有限的。
难以支持对象检测和语义分割等后续任务[1]。
图像融合技术的出现解决了这个问题。其中,红外图像和可见光图像的融合是最常用的[2]。
在过去几十年中,人们使用统计方法设计了各种图像融合算法,包括基于多尺度分解的方法[3],基于稀疏表示的方法[4]和基于显著性的方法[5]。这些方法都具有一个共同特点,它们将图像分解成多个层次,并为不同的层次设计不同的融合规则。融合结果受到分解方法的限制。为了实现良好的融合结果, 必须设计极其复杂的分解方法,这对实时处理构成了挑战。此外,手动设计的分解方法没有良好的鲁棒性。近年来,随着深度学习的发展,提出了许多基于神经网络的图像融合算法。基于神经网络的融合算法可以分为基于卷积神经网络的方法[6] [7] [8]和基于对抗神经网络的方法[9] [10]。基于卷积神经网络的算法利用神经网络的特征提取能力提取特征,融合来自多个源图像的特征,并设计损失函数重建融合特征。基于对抗神经网络的方法使用生成器和判别器,通过两者之间的对抗学习获取融合图像。
2. 现存问题 目前,基于神经网络的图像融合算法可以取得良好的结果,但仍存在一些问题: (1) 多源图像的特征提取网络彼此独立,导致自然融合结果较差。例如,在图1 中的SDNet [11]和FuionGAN [12]的红框部分,两种模式的信息在特征提取过程中没有融合,导致融合结果中存在接缝感。
(2) 普通卷积可能会导致信息丢失。例如,图1 中的FusionGAN 使用普通卷积,导致模糊和对比度较差的融合结果。
(3) 没有考虑到照明信息, 融合结果的亮度非常低。
例如, 图1 中的三种方法都努力保持纹理和细节。
然而,它们都没有考虑到融合过程中亮度的降低,我们可以在红框中清楚地看到这一点。GFF [13]方法的天空部分更像是可见光和红外图像的平均值,而SDNet 和FusionGAN 错误地保留了红外的天空部分,