大多数当前的无监督域自适应(UDA)技术从域级别或类级别学习域不变的特征表示。基于域级别的主流方法是对抗学习,对抗学习通常不考虑目标数据的固有判别信息。基于类别级别的UDA方法通常是为目标域样本生成伪标签,由于这些伪标签通常噪声太大,这不可避免地会影响UDA性能;其次,现有方法没有明确地强制区分不同类别的特征。为了解决以上问题,我们提出了基于Swin Transformer的无监督域自适应(SwinUDA)。首先,对于域对齐,将Swin Transformer与对抗性自适应相结合,提高模型对噪声输入的鲁棒性,其次,对于类别对齐,使用正交投影损失(OPL)直接在特征空间中实施约束。此外,正交投影损失对标签噪声干扰的影响更有鲁棒性。最后,引入了互信息最大化损失(IML)来保留目标域的可区分特征。本文提出的SwinUDA模型可以同时学习可迁移和可区分的特征。在Office-Home、Office-31和VisDA-2017三个公开数据集上进行实验,SwinUDA都展现了最佳的性能。
深度神经网络在许多计算机视觉任务中取得了令人印象深刻的性能。然而,这些方法成功通常依赖于大量标记的数据,而获取这些数据非常的耗时并且获取成本高昂,此外,由于计算机视觉中光照、背景、天气条件等因素的影响,也经常会出现训练数据和测试数据之间的特征分布不匹配。因此推动了无监督域适应(UDA)的研究,UDA 任务旨在存在域偏移的情况下,将知识从标记的源域转移到不同的未标记目标域。
大多数当前的方法[1] [2] [3] [4]试图通过对齐两个域的特征分布来学习域不变表示。
利用生成对抗网络(GAN)的思想是一种常见的技术[5]。通过生成器和判别器之间的极小极大博弈进行模型训练。然而, 如果强制将两个域中特征的全局边缘分布对齐,可能会忽略每个类别的局部联合分布。这种忽略会导致目标域中原本已经对齐的类别经过训练后映射到错误的类别,如图1 所示。另一种流行的方法旨在进行类别级的对齐来学习目标域的区分特征[6]-[11]。基于类级对齐的主要方法是生成与目标样本概率匹配的伪标签,并使用这些伪标签来训练模型。然而,这些伪标签通常噪声太大,无法进行精确的域对齐导致模型性能下降[10]。同时没有强制不同类别的特征很好的分离。
总之,域级对齐可以对齐源域和目标域的全局特征分布,以学习可迁移特征。而类别级对齐可以学习有区别的目标特征。理想的方法是结合这两种方法的优点,同时强制不同类别的特征分离。为了实现这一目标, 我们提出了一种新的UDA 解决方案, 即SwinUDA (基于Swin Transformer 的无监督域自适应)。