本文以开发印尼语语音合成系统为目的,研究印尼语文本分析与处理方法,主要研究了文本归一化和音节划分方法。采用正则表达及关键字相结合的方法,对文本中数字及特殊字符进行归一化处理;采用基于音节列表及特殊规则相结合的方案实现音节划分。从发音语料库中挑选出500个包含特殊字符的句子进行归一化测试,按特殊字符词数统计的正确率达96.0%。选取词典中的1000个单词进行集内测试,其音节化结果和人工划分结果相比,正确率为98.2%;从文本语料库中任意选取480个句子共计5850个单词进行集外测试,其正确率为97.1%。实验结果表明,上述方法为印尼语音合成系统的开发奠定了良好的基础。
在语音合成技术中,前端文本分析结果的质量直接影响合成语音的可懂度和自然度。因此,前端文本分析是语音合成系统的重要模块。作为世界第四大人口国的官方语言,近年来关于印尼语语音合成的研究相对较少。
目前印尼语公开发布的语料库是从一部流行的印度尼西亚小说中提取并以男女对话的方式进行录音的[1],该语料库的覆盖范围较窄。对于印尼语语音合成系统,Mengko 和Ayuningtyas 研究了基于音节拼接的印尼语文语转换系统[2],其主要针对音节声音数据库质量和播放过程中音节的整合问题进行改进, 但该系统音节列表不全且未考虑音节组合的韵律特征。Sutarman 研究了使用双音素拼接的印尼语文语转换系统,此系统在构造双音素数据库和文本到语音的过程中发现,在音素表中查找单词时不够精确,并且在分割过程中,使用双音素进行切分得到的结果也不尽如人意[3]。
本文聚焦于印尼语语音合成系统中的前端文本分析模块,着重关注文本语料库中数字及特殊字符的归一化以及基于音节列表和特殊规则相结合的印尼语音节的自动划分[4]。
本文的结构如下:第1 节为印尼语的简单概述;第2 节对印尼语发音语料库的构建进行阐述;第3节介绍了印尼语中非标准词的归一化方法;第4 节介绍印尼语的音节划分;第5 节对整个实验过程进行了总结。
2. 印尼语简介 印度尼西亚语(Bahasa Indonesia)是印度尼西亚共和国的官方语言,在整个印度尼西亚群岛被广泛使用。在语言学分类中,印尼语、马来语、爪哇语等一同构成了马来–波利尼西亚语系西印度尼西亚语支[5] [6]。印尼语由5 个单元音,3 个双元音和25 个辅音组成(此时不区分单元音e 和é),并且它是一种没有声调的语言[3] [7] [8]。它是一种黏着语,新词形成的方式有三种:附加词缀(词缀分为前缀、中缀、后缀)到词根、几个词或部分词重复构成新词以及外来借词[5]。在印尼语中不使用语法性别,只使用自然性