本文主要用隐Markov模型(HMM)来研究脱机手写数字识别。本文的内容分为三个部分,第一个部分是介绍HMM的基本理论;第二部分是介绍数字图片的预处理和特征提取,这部分属于图像处理方向,并且在手写体数字识别中很重要,特别是提取一个稳定而有效的特征决定着识别是否成功;第三部分是具体地实现这一识别过程,并且用Matlab实现了一个脱机手写数字识别系统。 文章引用: 张祥祥, 周乐, 钱永林, 张星玲, 崔晨光, 王雪蕊. 隐马尔可夫模型在脱机手写数字识别中的应用[J]. 计算机科学与应用, 2018, 8(5): 702-708.
隐Markov 模型(Hidden Markov Models, 简称为HMM)是一种统计模型, 今天正在手写体识别和语音识别等各个领域中获得广泛的应用。
而有关它的理论基础, 却是在1970 年前后由Baum 等人建立起来的, 随后由CMU(卡内基·梅隆大学)的Jim and Janet Baker (贝克夫妇,李开复的师兄师姐)和IBM 的Fred Jelinek 分别独立地提出用HMM 来识别语音,语音识别的错误率相比人工智能和模式匹配等方法降低了三倍(从30%到10%)。八十年代李开复博士坚持采用HMM 的框架,成功地开发了世界上第一个大词汇量连续语音识别系统Sphinx。由于Bell 实验室Rabiner 等人在80 年代中期对HMM 的深入浅出的介绍, 才逐渐使HMM 为世界各国从事语音处理的研究人员所了解和熟悉,进而成为公认的一个研究热点。
HMM 在语音识别中的成功应用[1],使得人们将HMM 引入到手写识别中来[2] [3] [4] [5]。目前,利用HMM 进行脱机手写字符识别是脱机手写字符研究的一个热点的方向。此外,HMM 在人脸识别和图像分割等模式识别领域有成功的应用。
2. 隐Markov 模型的基本理论 2.1. Markov 链 马尔可夫链,因安德烈·马尔可得名,是指数学中具有马尔可夫性质的离散事件随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。
这一类随机过程,它具有所谓的“无后效性(Markov 性)”,即要确定过程的将来的状态,知道它此刻的情况就足够了, 并不需要对它以往状况的认识, 这类过程称为Markov 过程。
而Markov 链是Markov过程的特殊情况, 即Markov 链是状态和时间参数都离散的Markov 过程。
从数学上, 可以给出如下定义: 随机过程{}, 1,2, nXn =,在任一时刻n,它可以处在状态12, , , NS SS,且它在1n + 时刻所处的状态为1nq + 的概率,只与它在n 时刻的状态nq 有关,而与n 时刻以前它所处状态无关,即有: ()()11111111|, , , |nnnnnnnnnnP XqXqXqXqP XqXq++−−++======= 其中, ()12112, , , , , , , nnNq qq qS SS+ ∈。
则称{}, 1,2, nXn =为Markov 链,并且称条件概率()11 |nnnnP XqXq++==为一步转移概率,当这个转移概率只与状态1, nnq q + 的具体取值有关,而与时刻n 无关,称这个Markov 链为齐次Markov 链,在本文中,讨论的Markov 链都是齐次的。
当1, nnq q + 分别取值, ijS S 时, 记()1|ijnjniaP XSXS+===, 则,1, ijai jN≤≤可以构成一个转移概率矩阵,即