基于循环神经网络的西班牙语词汇发音预测模型研究

发布日期:2020年10月23日
基于循环神经网络的西班牙语词汇发音预测模型研究 基于循环神经网络的西班牙语词汇发音预测模型研究 基于循环神经网络的西班牙语词汇发音预测模型研究

本内容试读结束

下载后可阅读完整内容,立即下载

基于循环神经网络的西班牙语词汇发音预测模型研究

依据西班牙语词汇和音素的特征以及词汇标音过程的特点,将西班牙语词汇标音过程建模为序列标注任务,提出基于字符嵌入 + 循环神经网络 + 连接时序分类的端到端词汇标音模型。首先利用word2vec框架在自建的西班牙语词库上训练字符嵌入向量,从而形成西班牙语字符的分布式向量编码表示;之后基于循环神经网络和连接时序分类算法构建了西班牙语词汇标音模型,并在自建的发音词典语料上进行了训练与测试。试验结果显示,基于字符嵌入 + 循环神经网络 + 连接时序分类的词汇标音模型可以获得较其他统计模型或是神经网络模型更高的标音准确率,同时较传统标音模型有更简单的标注流程,对数据集的要求也要低得多,可有效实现端到端的西班牙语词汇标音任务。

西班牙语发音词典是西班牙语语音识别以及语言合成的基础。西班牙语词形的复杂变化会导致西班牙语发音词典词汇量巨大,同时随着时代的发展,西班牙语中不断涌入新的词汇,固定的发音词典难以满足西班牙语语言处理任务的要求,实现西班牙语词汇发音的机器自动预测功能对于西班牙语的自然语言处理研究具有重要意义。

本文对西班牙语发音字典的构建方法进行了简单的回顾, 分析了目前存在的问题与主流的解决方案。

最后选择将西班牙语发音词典的构建作为一个序列标注任务来建模, 利用word2vec 框架在自建的西班牙语词库上训练字符嵌入向量,从而形成分布式的字符编码向量表示。之后,基于循环神经网络和连接时序分类算法构建了西班牙语字——音标注模型,并在自建的发音词典语料上进行了训练与测试,取得了理想的效果。

2. 发音词典概述 发音词典的主要功能是实现文本单词到语音发音基元的映射,在文字与语音的转换过程中起着关键性的作用,也是语音识别、语音合成等高层应用必备的基础数据资源。西班牙语发音词典的传统构建方法多采用穷举法, 即列举出词表中所有的西班牙语单词, 并以人工方式为每个单词标上相应的发音基元, 从而构建一个以键–值对形式存储的单词——发音对照词典。然而由于西班牙语属于屈折型语言,是典型的字符拼写型文字,具有数量极其庞大的单词形式,单纯采用人工方式来标记发音词典不仅需要大量的时间和精力,同时还需要召集足够多的西班牙语专业人员来进行发音基元的标注,其低下的构建效率和高昂的人力成本对于实际应用来说都是难以承受的。并且随着经济社会的发展,不断的会有新的词汇出现,基于键—值对的发音词典根本无法应对词表以外单词的发音预测任务。因此,业界开始致力于研究基于数据驱动的词汇标音模型,即以人工标记的小规模、高精度发音词典作为原始训练数据,通过构建机器学习模型并基于原始数据进行模型训练,从而使模型具备一定的标音能力,再结合机器标音和人



相关标签