印刷体数学公式识别研究

发布日期:2020年4月8日
印刷体数学公式识别研究 印刷体数学公式识别研究

本内容试读结束

下载后可阅读完整内容,立即下载

随着电子书产业的发展,OCR技术(光学字符识别)的应用越来越广泛,但公式识别还未普及,主要原因是公式本身缺乏规律,同时,论文查重越来越严,也给公式识别提出了新的要求。本文主要研究以图片形式呈现的印刷体数学公式识别,字符分割方面采用了投影行分割和连通域分割相结合的方法,字符识别采用了模板匹配法,然后利用字符的相对位置进行结构分析。系统采用的分割方法在保证运算速度的同时提高了分割精度,对可分割的字符效果好。采用的字符识别方法充分利用了印刷体数学字符的规律性,算法简单,运算复杂度较低,识别精度高于97%。结构分析上考虑了常见的公式结构,分类讨论不重不漏。系统能识别清晰的印刷体数学公式,运算复杂度和字符粘连问题还需要进一步优化。

信息技术的进步, 促进了电子书产业的蓬勃发展, 电子书内容的识别与应用的需求也越来越高。

OCR技术,即对文本资料进行扫描后对图像文件进行分析处理,获取文字及版面信息的过程,其提出至今已有近90 年,在中文材料和英文文章中均已得到广泛的应用。然而,在对数学公式的识别上还未普及,论文查重中还未能对数学公式进行识别,而这正是一些理工科论文的核心内容,同时,当前国内对论文查重的要求越来越高。因此,数学公式的识别与检索对于信息快速共享和预防学术不端现象具有非常重要的现实意义[1]。

与普通文本识别不同的是,数学公式的分布呈二维状态,其分布无序,而普通文本的分布一般呈现一维状态,同时,对于英文单词的识别,还可通过语义与单词规律进行校正。这使得数学公式的识别更加困难。一般而言,数学公式的识别分为图像预处理、字符分割、字符识别、结构分析、错误纠正、输出几个步骤。因此,本文将主要从前面五个部分进行介绍。

2. 印刷体数学公式识别研究 本文的研究对象是以图像形式存储的印刷体数学公式,一般由PDF 文件或对公式截图获得。因此, 在进行字符分割与识别之前,需要进行图像预处理。

2.1. 图像预处理 首先将RGB 图像进行灰度化处理,常见的灰度化处理有分量法、最大化法、平均法及加权平均法。

系统采用MATLAB 的内置函数rgb2gray,加权平均法: 0.29890.58700.1140XRGB=++ 其中X 为灰度图像的像素值,R、G、B 分别是红绿蓝三种颜色的亮度值。

对得到的灰度图像二值化处理,图像的二值化处理将直接关系到识别的成功与否,同时还关系到字



相关标签