字音转换(Grapheme-to-Phoneme, G2P)是语音合成前端的重要部分,影响着语音合成的质量。现如今,大多数的字音转换的研究是针对于单一语种的,而在实际应用中,单一语种合成的语音远没有多语种的实用性高。因此,本文利用Transformer架构研究了在文本交叉混合条件下多语种(英、日、韩)的字音转换,使用音素错误率(Phoneme Error Rate, PER)和单词错误率(Word Error Rate, WER)作为评价指标。英文在基于美国英语的CMUDict数据集进行评估,韩语和日语则是先对SIGMORPHON 2021字音转换任务上的韩语及日语数据集进行了数据扩充,并在扩充后的数据集上进行评估。实验结果表明,在文本交叉混合条件下,基于Transformer架构的英、日、韩字音转换在音素错误率和单词错误率方面与基于Transformer架构的英、日、韩三个语言的单一语种相比都大大降低了。
字音转换是指单词从正字法(字母/字符/字素序列)转换为它们的发音(音素序列)的任务,字音转换技术在语音合成中占有重要位置。近年来,随着深度学习方法的多领域应用,开始将深度学习应用于字音转换。同时文献[1]也表明了基于深度学习方法更能有效的降低音素错误率和单词错误率。字音转换质量的提升,可以大大提高语音合成的自然度[2]。
其中, Transformer 模型[3]是完全基于注意力机制[4]的一个深度学习模型, 注意力机制有更好的记忆力,能够记住更长距离的信息,同时注意力机制支持并行化计算。从文献[5]中可知在进行英语字音转换时,Transformer 模型相比序列到序列(seq2seq) [6]等深度学习模型大大降低了音素错误率和单词错误率。
针对字音转换的研究目前大多数都是基于单一语种的,对同一个深度学习模型来说,针对不同语言进行字音转换时,均需要对模型进行参数调整,同一套参数并不适用于所有语言,这样就增加了时间成本。在实际应用中,多语种语音合成实用性更强,但是目前多语种语音合成研究较少,因此合成涵盖多语种的语音非常迫切。
本文研究了Transformer 架构在文本交叉混合条件下多语种(英、日、韩)的字音转换,使得到的模型可以适用于多语种情况。
将本文的实验结果分别与基于Transformer 架构的单一语种方法进行了比较。
实验结果表明,本文的研究结果在音素错误率(PER)和单词错误率(WER)方面大大降低了,对合成涵盖多语种的语音有着积极的促进作用。
2. 研究方法 编码器–解码器(Encoder-Decoder)是深度学习模型的抽象概念。许多模型的起源都是基于这一架构的。比如卷积神经网络(Convolutional Neural Network, CNN) [7],循环神经网络(Recurrent Neural Network, RNN) [8],LSTM (Long Short Term Memory) [9]和Transformer 等。这些网络架构使用时编码器将输入序列转换为一个向量,解码器则基于学习到的向量表示生成输出序列。Transformer 也是一个完全基于注意力机制的模型。