传统的数学公式识别,通常建立在OCR技术进行图片文字识别的基础上,对目标公式进行符号切割,通过构建数学符号数据库,然后两两比较相似度,然后返回最大相似度的符号名称,作为识别结果。该方
随着互联网和信息技术的不断发展,中国在线教育已逐步进入智能教育时代,如拍照搜题,拍照阅卷以及拍照题库等教育类型应用层出不穷。另外,与传统的纸质书籍相比,电子书籍具有便于修改、储存和检索的优势,越来越多的人们倾向于从电子书籍中学习新知识。因此,将印刷体扫描图像转化为可编辑的文本,对于在线教育的发展与科技发展水平、教育理念变革以及用户教育需求升级和生活方式转变具有非常重大的意义。目前这方面发展比较成熟的技术是光学字符识别技术(OCR),能够较精确地识别中英文以及阿拉伯数字,但对数学公式的识别效果不佳。数学公式符号种类繁多、公式结构复杂,以及符号含义的多样性,让传统的OCR 技术力所不及。本文将研究提高数学公式识别精度,为数学公式的全面识别提出一点新思路。
数学公式识别作为实用性较强的技术引起了国内外专家和学者的广泛关注和研究。
1968 年, Anderson首次提出数学公式的识别问题[1]。1996 年,Blostein 和Grbavec 给出了公式识别的定义以及提出了公式识别的重新构图法。
在Okamoto 等人的系统中[2] [3], 首先采用目标结构分析法递归分割字母以及符号, 然后建立相对应的字符关系树,最后传统的模板匹配算法来进行数学公式的识别。Lee H J 和Lee M C 创建的系统中,通过提取数学公式行高度、文档位置信息、相邻行间隔大小等特征[4] [5],来识别和提取公式。为了解决系统误判问题,采用连通域分割的方法,先切分公式、优化公式粘连、字符识别和逻辑分析重组、最后把结果储存为LATEX 格式。
国内有靳简明的MathReader 数学公式识别系统, 其利用Parzen窗进行公式定位,结合水平垂直投影技术、连通域分割技术和统计学特征分析技术进行公式识别,然后定义了11 种公式来重构表达式并输出[6]。
王琪辉则建立了面向公式符号识别的卷积神经网络结构, 并通过大量的对比实验确定网络的最优参数[7]。
综上所述, 数学公式的识别问题研究较早, 但是数学公式(特别是微积分公式)结构复杂, 识别难度大, 还是有很多亟待解决的难题。本文在结合前人研究的研究成果,通过对数学公式进行分析、总结,进一步提取公式符号特征,使用支持向量机(SVM)对数学公式进行识别,并加入朴素贝叶斯(Naive Bayes, NB)模型作为对比分析。NB 是基于条件概率的分类算法,通过概率大小来进行分类,而SVM 通过数据点到分割线的距离远近来进行分类。在传统机器学习领域,NB 和SVM 是最常用分类算法,在不同的分类问题上性能也有所不同。本文选取NB 作为对比,旨在测试SVM 模型的效率和准确性,力求建立一个性能优良的SVM 模型,为传统机器学习模型在公式识别技术的研究提供一些指导。