关于日中神经网络机器翻译中的词汇问题的探讨

发布日期:2020年2月28日
关于日中神经网络机器翻译中的词汇问题的探讨 关于日中神经网络机器翻译中的词汇问题的探讨

本内容试读结束

下载后可阅读完整内容,立即下载

近年以来,神经网络机器翻译作为新兴的翻译技术,取得了极大的进步。翻译的译文不仅更加准确也更为流畅。但神经网络翻译同时还有许多问题需要改进。本文旨在以日中神经网络机器翻译为实例,探讨词汇层面的问题和成因,并提出相应的模型改进方法。受限于模型的词表大小和语料资源的领域不匹配等原因,译文中存在未知词和词语的错翻漏翻等问题。因此,本文根据这些原因提出了使用subword,替换低频词,利用外部词典,采用领域自适应训练模型等多个改进方案。使用subword或者利用外部词典,可以克服词表过小的问题。替换低频词可以降低低频词对模型的负影响。领域自适应可以提高模型对特定领域文本的表现。实验结果表明本文提出的模型改进方案相较于一般的神经网络翻译模型,能很好地减少词汇翻译问题的出现次数,从而提高译文的翻译质量。

机器翻译指的是通过计算机自动地将一种语言翻译成另一种语言的技术。它的作用是消除人们的沟通障碍,是人类长期以来的一个钻研方向。

本文的目的是通过探讨日中神经网络机器翻译存在的词汇问题,了解这些问题产生的原因,并实施若干的改进方法。最后通过分析实验的结果,验证这些方法是否能有效改进词汇问题。

2. 机器翻译的类型 在介绍神经网络机器翻译存在的词汇问题之前,本文先简要总结机器翻译的各种类型。根据出现时间的先后顺序,机器翻译主要可以分为以下几种类型:基于规则的机器翻译,基于实例的机器翻译,基于统计的机器翻译,基于神经网络的机器翻译。

2.1. 基于规则的机器翻译 基于规则的机器翻译主要是受到了乔姆斯基提出的转换生成语法的启发。乔姆斯基[1]认为对于一种语言,是可以利用有限的规则来推导出来无限的句子。

基于规则的机器翻译的优点在于他可以直观并精确地表达语言学家们所制定的各种知识规则。

同时, 其缺点也是非常明显的。比如规则需要动用大量的人力来进行编写;且规则具有极大的主观性,难以保障一致性;不规范的句子难以被归纳到有限的规则里。

2.2. 基于实例的机器翻译 基于实例的机器翻译的方法最早由日本京都大学的长尾真[2]提出。其思想是要给机器翻译系统提供已经存在的近似的例句,使其在翻译新输入的句子时可以忽略其中的相同部分,可以专注于处理例句和新输入的句子之间的不同的部分。



相关标签