本文提出了一种基于汉字简繁转换的神经机器翻译(Neural Machine Translation, NMT)数据增强方法,旨在通过利用简繁转换表将源端文字替换为目标端文字,从而融合汉字简繁转换信息,并提高翻译质量。本文将此方法应用于汉日机器翻译任务,实验结果表明此方法是一种有效的数据增强方法,可以显著地提高汉日机器翻译质量。
汉日机器翻译是指用计算机自动将汉语文本翻译成日语文本, 或将日语文本翻译成汉语文本的过程。
汉日机器翻译既涉及汉语与日语这两种语言,也涉及人工智能与计算机科学这两个领域。
中国和日本是东亚地区最大的两个国家,也是东亚地区最重要的经济体。中日两国在技术、文化、经济等方面的交流与合作已有几千年的历史,但随着时代的发展,中日两国的交流和合作变得越来越紧密。近几十年来,随着中国的经济腾飞,中国成为世界第二大经济体。中国的经济增长也带动了中日两国的贸易增长,中国成为日本的最大贸易伙伴,日本也成为中国的第二大贸易伙伴。随着中日两国经济关系的加强,中日两国的文化交流和科技合作也变得更加密切。由于中日两国语言的不同,语言障碍成为了阻碍中日两国更紧密合作的一个重要因素。因此,汉日机器翻译在这种背景下应运而生,成为了解决中日两国语言障碍的有效手段。
随着人工智能技术的飞速发展, 神经机器翻译(Neural Machine Translation, NMT)已经取代了过去的翻译方式,成为了当下最好的翻译应用框架[1] [2] [3]。比起其他常用语种的翻译,汉语与日语这两个相近的语言具有很多共同的特点,但相关机器翻译研究的翻译精度仍未达到实用要求,仍需引导和关注。
想要得到高质量翻译结果的话,NMT 对汉日对译语料库的数据量的需求很大。但是,相比于汉英的公开平行对译语料的数百万至数千万句对,汉日的公开平行对译语料的规模只有几十万句对。如ASPEC-JC 与WCC-JC 汉日对译语料库,仅有约67 万与215 万对译句子,比起其他语言对的千万级别的量,具有较大差距[4] [5] [6] [7]。
数据增强(Data Augmentation, DA)技术缓解了深度学习中数据不足的场景, 在图像领域首先得到广泛使用, 进而延伸到自然语言处理领域, 并在许多任务上取得效果。
主要的方向是增加训练数据的多样性, 从而提高模型泛化能力。在NMT 中,经常使用的方法是回翻译:将原始数据从目标语言A 翻译到中间语言B,然后再翻译回目标语言A,从而实现对原始数据的改写[8]。另一种是单向翻译,将原始数据从语言A 翻译到语言B,从而扩充语言B 的数据,此种方法多出现在多语言场景中。优势是容易使用、使用范围广、保证句法跟语义不变。劣势是不可控且多样性受限,会受限于固定的翻译模型。归根结底, 回翻译旨在生成跟原始数据语义尽可能相似的新数据。还有的方法则是在原始数据上添加微弱的噪声, 不至于严重影响文本原来的语义,但又能跟原始数据存在一定的差异性。这种方式不仅可以实现训练数