从古至今,印章一直在具有法律效应的文件中具有重要作用,因此印章的识别在文件的识别中占有重要地位。印章图像因为具有特征丰富和字符紧凑的特点,直接识别会影响其准确率。本文提出了先识别印章中文字,通过文字标签判别印章的方法,本文提出的方法识别率较高。
近年来,文件票据的使用场景已越来越广泛,并且随着图像技术和深度学习技术的发展与研究,印章识别技术已经被各国学者研究,研究方法整体分为3 个方向:基于配准的识别、无需配准的识别和基于深度学习的识别。
基于配准的识别算法中,需要先配准印章再进行识别。Fan 等人[1] [2]将印章配准后,采用动态等级(Attributed Stroke Graph, ASG)算法[3]进行笔画的识别。项阳[4]提出了一种改进的人工蜂群算法(Artificial Bee Colony, ABC) [5]。Ueda 和Matsuo [6]将印章的局部和全局特征组合到一起,利用策略法进行判别印章真伪。
无需配准的印章识别方法, 直接利用印章进行识别。
国内外也有大量学者进行了研究。
Chao Ren等人[7]针对非方章进行了研究,定位印章提取文字,对文字进行矫正,并放入文字识别系统(Optical Character Recognition, OCR) [8]进行识别,通过文字通过率判别印章真伪。Haruki R [9]等人利用三维图像识别二维印章印痕,降低了盖印条件对识别结果产生的影响。基于深度学习的识别方法中,大量研究者将卷积神经网络引入到印章识别技术中, 取得了一定的成果。
万水龙等人[10]提出了一种基于Krawtchouk- RBF 的识别算法,通过提取印章图片的Krawtchouk 矩[11]并放入径向基函数神经网络(Radial Basis Function, RBF) [12]中,对印章进行分类识别,准确率可达90%。可以看出,印章识别发展历史久远,说明了印鉴识别的重要性,因此本文的研究课题具有重要意义。
2. 保留有效字符区域 印章中的非有效字符区域包含印章中的外圈轮廓和印章中间标志。由于这些非字符区域不会影响印章的识别,一般加印章也不会对该位置进行更改,因此本文对印章仅保留有效的字符区域。
2.1. 最小外接矩形 在原始图像中,图像大小大于图像中印章大小,即使进行归一化处理后,图像中的印章大小也未统一。因此,本文通过提取印章的最小外接矩形,使得图像大小即为印章大小,然后通过归一化,使得印章大小统一。
图形的最小外接矩形换句话说就是图形的凸包(Convex Hull)。
凸包的定义为:在一个实数向量空间V中,对于给定集合X,包含X 中所有凸集的交集S 称为X 的凸包[13]。凸包可以通过Graham 扫描法进行寻找,Graham 扫描法的操作方法如下: 根据每个点坐标,将纵坐标最小的点放置在坐标圆点处,将其他坐标也平移到坐标中,平移过程中保证所有坐标的相对位置不变性,如图1 所示。然后从第一个点依次放入栈中,根据每个点与上一点的相对位置进行判断,当前点位于上一点右侧时,不放入栈中;最终栈内的点即为凸包的边缘点,根据其最小面积,将其变为规整的矩形。