相比汉语和英语,缅甸语的语音合成技术发展相对滞后,合成的语音缺乏情感。情感语音合成使机器表达不再生涩,采用基于HMM声学模型的语音参数自适应方法,研究缅甸语情感语音合成。情感语音合成研究面临的一个困难是难以获取大规模的情感语音库,在低资源条件下提出了一种实现缅甸语情感语音合成的方法。首先在MFA (蒙特利尔强制对齐)平台进行缅甸语音子自动切分以训练语音声学模型,基于HTS平台采用中规模的缅甸语平静情感语音库,构建缅甸语语音合成基线系统。在此基础上,基于少量的高兴、悲伤、生气情感语音数据,采用语音参数自适应方法,构建缅甸语情感语音合成系统,并通过引入平均音模型和调整转换矩阵的方法进一步改进情感语音合成系统。实验结果表明,情感语音合成系统可合成出平静、高兴、悲伤、生气四种情感的缅甸语语音,EMOS平均评分可达3.40,证明了方法的有效性。
随着语音合成技术的发展,汉语和英语的语音合成的自然度与可懂度有较大的提升,在语音转换、说话人迁移、情感语音合成等多样化语音合成方面有较大的发展与突破。语音合成是实现人机交互的重要环节,近年来端到端技术在语音合成上有较大的应用,合成语音的质量有明显的提升。在提升合成语音质量的前提下,建立实现任意说话人特征、任意情感特征的语音合成系统对于提升语音合成的自然度具有重要意义。
缅甸语是缅甸各民族的共同语, 属于汉藏语系藏缅语族缅语支, 使用人口超过4800 万[1]。
中缅两国长期以来建立了良好的战略合作伙伴关系,在“一带一路”战略背景下,中缅两国人民展开了广泛的经贸交流与合作,缅甸对于我国外交具有重要的战略地位。针对缅甸语的语音合成,有部分学者提出了不同的方法实现缅甸语的语音合成,如2015 年Ye 等人提出采用基于HMM 的统计参数的方法实现缅甸语语音合成[2], 2017 年Thida 等人提出基于音子拼接的方法[3], 2018 年Hlaing 等人采用基于DNN 的方法进行缅甸语语音合成研究[4],但主要的研究还是集中于合成出中性情感的缅甸语音,合成的声音缺乏情感表现力。
为了使合成出的缅甸语声音具有情感, 更好地促进人机交流, 本文进行缅甸语情感语音合成研究。
相比缅甸语,汉语和英语等通用语言的情感语料库获取更为方便,针对汉语和英语的情感语音合成研究,许多学者采用构建大规模情感语料库的方法进行特定情感的建模训练。近年来深度学习技术在情感语音研究上有了一定的应用,如2018 年Gao 等人将GAN (生成对抗网络)深度学习框架应用于情感语音转换上取得了较好的实验效果[5], 但许多深度学习网络要得到较好的实验结果需要一定规模的语料库, 而缅甸语等非通用语的电子化资源相对匮乏,难以获取较大规模的高质量特定情感语料库,且构建一份大规模的情感语料库所需成本较高,时间周期较长,因此难以将深度学习技术直接应用于缅甸语的情感