基于改进EAST的文本检测算法

发布日期:2021年1月28日
基于改进EAST的文本检测算法 基于改进EAST的文本检测算法

本内容试读结束

下载后可阅读完整内容,立即下载

自然场景文本定位检测是文本识别的研究热点之一。EAST算法是目前自然场景文本定位检测算法较为出色的算法之一,在ICDAR2015数据集上,有着较高的准确率和召回率。但EAST算法仍存在着感受野不够大、长文本检测效果不佳的问题。因此本实验对EAST算法进行改进,通过改进EAST算法的结构,加入了ASPP网络,扩大感受野,加入了BLSTM神经网络,增强了文本之间的关联,提高文本定位效果。实验结果表明,该算法在ICDAR2015文本定位任务上的召回率为77.84%,精确率为86.24%,F-score为81.82%,优于经典EAST算法。

随着互联网的发展和计算机技术的提高,光学字符识别(Optical Character Recognition, OCR)技术[1]也得到了有效的提高。

通过OCR 识别技术可以有效地从图片上面提取到所需要的文字信息。

但是目前通用的OCR 算法只针对于简单的运用场景,一旦场景掺杂过大的因素,识别效率和召回率都会急剧下降。

OCR 识别技术主要分文本检测和文本识别两部分[2] [3]。文本检测作为文本识别的前提,在整个文本信息提取和理解过程中起着重要的作用。只有正确的定位到文本区域才能进行正确的文本识别。正确的文本区域检测对提高文本识别准确有着重要的作用,因此,如何提高文本检测是一个重要的课题。

国内外学者利用不同的方法解决了文本检测问题。Tian [4]提出的一种新型的连接主义文本提议网络(CTPN),使用一种垂直锚定机制,共同预测每个固定宽度候选位置和文本/非文本的分数。通过最大分数确定文本行位置,这大大提高文字定位的准确度。但是CTPN 只针对于水平文字检测有很高的效率。为此,Shi 等人[5]提出一种定向文本检测方法SegLink,在CTPN 的基础上进行改进。主要的思想是将文本分为两个本地可以检测的元素, 通过端对端训练的完全卷积神经网络在多个尺度上密集检测这两个元素。

最终检测时通过连接段的组合。

CTPN 检测法、SegLink 检测法是通过先预测proposals (预选框)、segment (切片),然后再回归、合并等方式实现对文本的检测。由于CTPN 模型过于冗余复杂,Xinyu Zhou [6]等人提出EAST 检测法,将中间过程缩减为只有FCN (全卷积网络)、NMS (非极大值抑制) [7]两个阶段,而且输出结果支持文本行、单词的多个角度检测,既高效准确,又能适应多种自然应用场景。但是EAST算法仍然存在着感受野不够大,长文本检测效果不佳的问题。

因此,为了解决EAST 算法的存在的问题,本文在EAST 算法上进行改进,通过改进EAST 算法的结构,利用ASPP 网络替代EAST 算法中的部分结构,引入BLSTM 神经网络[8],增加输出特征图之间的关联性,从而改善了EAST 算法的文本检测效果,提高算法的性能。



相关标签