尽管基于神经网络的音频源分离方法具有优异的性能和广泛的应用范围,但其对故意攻击的鲁棒性在很大程度上被忽视了。本文在音频源分离平台rl_singing_voice-master的基础上提出了一种新的分离平台结构,该分离平台引入了自注意力机制(self-attention)并使用变分丢弃法(Variational Dropout)对其进行正则化处理。实验结果表明,在MUSDN18数据集上,改进后的音频源分离平台相较于原分离平台,在面对对抗性样本的故意攻击时,鲁棒性也得到了明显提升,分离性能也得到了优化。
音频源分离在下游任务中得到了广泛的研究和应用。例如,各种音乐信息检索任务,包括歌词识别与对齐[1] [2] [3]、音乐转录[4] [5]、乐器分类[6]、歌音生成[7],都依赖于音频源分离(MSS)。同样,自动语音识别也得益于语音增强和语音分离。现如今提出的各种源分离方法的最新进展极大地提高了分离精度,一些方法的性能与理想掩码方法相当,甚至优于理想掩码方法,并将其作为理论上基线[8]-[13]。除了出色的性能,深度神经网络最近被证明易受一种特定类型的攻击,最常被称为对抗性攻击。这些方法主要包括PGD [14]、Deep Fool [15]、FGSM [16]及JSMA [17]等。他们只对输入数据进行细微的更改,但导致网络性能出现重大故障,然而这些更改几乎不会被人类观察者注意到。此外,在[18]中已经表明,这种对抗性攻击倾向于很好地泛化跨模型。这种可移植性特性只会增加攻击的可能性,因为攻击者可能不需要知道特定被攻击网络的结构就可以欺骗它。
因而在音源分离领域,针对故意攻击的鲁棒性研究非常重要。首先,如果有人以感知不到的方式恶意操纵音频,从而使分离质量严重下降,那么所有下游任务都有可能失败;其次,如果音频的创作者们不希望他们的音频内容被分离和重用,那么这样的操作可以保护内容不被分离,对原始内容造成最小和难以察觉的干扰。前者被视为针对分离平台攻击的一种防御,后者被视为针对分离信号滥用的内容版权保护。但是,源分离模型在对抗攻击下的鲁棒性在很大程度上被忽视了。
本文对音频源分离平台的鲁棒性进行了研究。对音频源分离平台rl_singing_voice-master 中编码器的结构做出改进,在编码器中添加自注意力机制(Self-Attention)并使用变分丢弃法(Variational Dropout)进行正则化处理防止过拟合。实验证明,在相同对抗性样本的攻击下,改进后的分离平台鲁棒性明显优于原分离平台。
2. 相关知识 2.1. 自注意力机制(self-attention) 在注意力机制的基础上减少了对外部信息的依赖,使得设计的模型能够更好地关注特征之间的相关性或数据相关性。通过人工神经网络获得的输出特征本质上是由卷积层通过卷积核和原始特征的线性组合获得的。因此通常使用叠加卷积层的方法使获得的效果更加优化。事实上,这种方法效果并不突出。
语义信息不足是导致模型应用于计算机视觉领域中性能不佳的一大原因,而自注意力机制则是拥有更大的感受野来对全局信息进行捕获,包含了更多的上下文信息。上下文信息的作用在许多视觉任务中显得格外重要,例如目标检测和语义分割等。自注意力机制为此提供了一种有效的建模方法,通过q、k 和v的三元组来对全局上下文信息有效捕获,如图1 所示。