马来语广泛使用于马来西亚、新加坡等东南亚国家,目前使用人数约有2亿多人。本文研究马来语语音 *通讯作者。 文章引用: 施梅芳, 冯浩然, 杨鉴. 马来语语音合成系统的设计与实现[J]. 计算机科学与应用, 2018, 8(7): 1053-1064.
随着信息科学的进步,语音合成技术在近几年得到了飞速发展。合成语音的自然度、可懂度等各种指标都得到了明显的改善,并被广泛的应用于导航、手机语音交互等实际系统中。
现如今,语音合成的应用主要集中在汉语、英语等常用语言,而小语种的研究相对缺乏。作为使用人数较多的马来语是东南亚地区一种重要的民族语言,因此研究马来语语音合成系统对中国与东南亚地区交流互动有积极的意义。
本论文主要研究了马来语语音合成系统的前端文本分析的方法和后端语音合成。从文本层面,通过规则、音节列表、正则表达等方法对马来语的文本进行分析和处理,完成了语料库构建、文本归一化、文本音节化等工作。在系统后端根据音子列表和上下文属性的信息设计问题集,利用HTS 工具包进行模型训练,最后生成马来语的语音。
2. 马来语语音合成系统 2.1. 马来语简介 马来语是马来西亚联邦和文莱苏丹国的官方语言,同时也是新加坡的官方语言之一,属南岛语系印度尼西亚语族。马来语由5 个单元音,3 个双元音和26 个辅音组成[1]。(此时不区分单元音e 和é统一写成e)。其具体音素如表1 所示。
2.2. 基于HMM 的语音合成 基于隐马尔科夫(HMM)的语音合成方法在近几年来得到广泛的应用,这是一个在语音处理领域被广泛使用的概率模型,用来描述一个系统隐形状态的转移和隐形状态的表现概率。它在语音合成方向运用的基本方法是对语音的参数进行提取、建模,然后根据标注的数据进行自动训练,最后构建出一个合成系统。图1 为其基本框架,主要包含训练与合成两个部分[2]。
在提取特征参数时主要是选取LSP 作为本次实验的谱参数,通过对语音的基频、时长、谱参数进行训练得到后端声学模型。而在合成部分,则是对输入文本进行解析,同时将训练完成的模型进行参数估计,最后使用STRAIGHT 合成器合成出所需要的语音。