针对离线手写文本识别(HTR)在自然语言处理领域中的重要性以及其广泛应用于帮助视障用户、人机交互和自动录入等方面的实际需求,本研究提出了一个全新的模型。该模型在门控卷积网络的基础上引入了堆叠自注意力编码器–解码器,用于离线识别手写的汉字文本。由于书写风格的多样性、不同字符之间的视觉相似性、字符重叠以及原始文档中的噪音等挑战,设计准确且灵活的HTR系统具有相当大的难度,特别是当处理较为复杂、包含大量字符的文本时,算法的学习能力显得不足。为了解决这一问题,我们提出的模型包括特征提取层、编码器层和解码器层。其中,特征提取层从输入的手写图像中提取高纬度的不变特征图,而编码器和解码器层则相应地转录出文本。实验结果显示,该模型在HCTD数据集上的字符错误率(CER)为6.72,单词错误率(WER)为11.11;在HCWD数据集上的实验结果CER为6.22和WER为7.17。相对于其他研究者的模型,本文设计的模型在手写汉字识别率上提升了11%。
手写文字识别(HTR)一直以来都是图像处理和自然语言处理领域中最具吸引力和挑战性的研究领域之一。它被广泛应用在各种应用程序中,用于将手写图像转换成可编辑文本的用户界面,提高HTR 系统的识别性能可以改进文字处理领域的自动化流程。
根据参考文献[1],手写文字识别主要分为离线识别和在线识别两种类型。在离线识别中,手写特征从扫描图像中提取,而在在线识别中,特征则同时从笔迹轨迹和生成的图像中提取。由于不同书写者书写风格的差异、不同字符的视觉相似性、字符之间的重叠以及手写字符的复杂特征,在从手写文档中提取特征方面存在一定困难。此外,原始文档的背景复杂也是离线手写识别中的另一个挑战。这表明,从在线手写识别的笔迹轨迹输入中提取特征要比从扫描图像进行离线识别要好得多。因此,离线手写识别需要更复杂的方法来准确提取特征并提高识别性能。
在过去几十年中,国内外学者提出了多种HTR 系统,并取得了显著的成果。例如,已经采用了隐马尔可夫模型(HMM) [2]和HMM-神经网络混合模型[3]来识别手写文档。然而,由于HMM 的独立假设, 匹配提取的特征与标签存在一定的局限性,即使在HMM-NN 混合系统的情况下稍微放宽,仍然存在大范围输入问题。因此,研究者最近提出了深度神经网络(DNN)方法,用于改进浅层机器学习技术中的分割、特征提取、分类和识别问题[4]。深度学习方法已经被应用于离线HTR 的研究,并在拉丁文、阿拉伯