文档的编辑和检索要求能够自动识别数学公式,数学公式识别是一个活跃的研究领域,经过多年的发展提出了许多解决方法。公式的输入数据格式有文档图像、笔划、矢量图形、特殊语言等几种形式,不同的输入方式决定数学公式的提取和和识别方式的不同。本文介绍了数学表达式识别邻域的研究现状,讨论了表达的检测、符号识别、结构分析、语义分析等四部分的问题,并提出未来数学表达式的研究方向和热点。
数学公式广泛存在于各类文献之中,是科技文档重要的组成部分,最近识别PDF 文档中的公式的需求与日俱增,但是公式的识别远比文字段落的识别困难。文档编辑环境中也要求能够对用户输入的各种格式的数学符号进行识别。Web 上含有越来越多的数学公式文档,由于数学公式有自己独特的结构,使用传统的自然语言搜索系统不容易处理这些公式,数学信息检索是数学公式识别领域的一个重要的研究热点。在数学信息检索中,文档集合可以使用含数学符号的查询语句进行检索。检索系统需要识别查询语句以及集合中的所有文档,而且必须注明出数学表达式的位置以及识别结果解释,这就对数学公式的识别提示出了新的要求。伴随着基于光学扫描和笔写输入等硬件设备的发展,公式识别系统的软件实现方面成为关键问题。
数学符号提供具有挑战性的模式识别问题,包括分词歧义,符号识别的挑战和意义的模糊性。数学表达式的识别分为如下几个阶段,分别是预处理、公式检测、符号识别、符号间的空间关系确定、逻辑关系确定、意义构造等。本文介绍了在数学表达式识别的研究现状,讨论表达的检测、符号识别、结构分析、数学内容的解释等四部分的问题,并提出未来数学表达式的研究方向和热点。
2. 数学公式识别概述 数学公式识别主要由字符识别以及符号之间结构关系的分析两个阶段组成。现今数学公式识别的4个重要方向:表达式定位、符号抽取和识别、结构分析、语义分析。
2.1. 公式定位 数学公式的输入方式主要包括键盘鼠标输入、语音输入、手写输入等方式。特殊语言法和图形界面输入方法,都不及手写数学公式自然、简便。
相应的数学公式的数据格式有4 种形式:文档图像、笔划、PDF 等矢量图形、Latex 等特殊标记语言。不同输入方式的数学公式的提取和识别方式不同。经过近50年的研究,用于检测独立表达方法是相当成熟,内嵌公式的检测仍然是一个挑战。
1) 文档图像公式定位 在文档图像中检测出的表达式是页面分割问题的一部分,区分出页面区域包含的文本、表格、数学