基于注意力机制的自然场景文本检测算法

发布日期：2022年11月29日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

针对目前主流场景文本检测算法在进行多尺度特征融合时不能够充分利用高、低层信息造成的文本漏检，以及长文本边界检测错误的问题，本文提出一种应用注意力机制的多尺度特征融合与残差坐标注意力的场景文本检测算法。该算法将注意力特征融合模块嵌入到金字塔中，通过纠正不同尺度特征的不一致性来提取更多的细节信息，以改善文本的漏检；在融合之后，使用残差坐标注意力模块在纵、横两个方向上捕获方向感知和位置敏感信息，细化边界信息，以优化长文本检测的效果。通过在公开数据集ICDAR 2015和Total-Text上的实验结果表明，该算法在F分数上分别达到了85.5%和83.6%，在推理速度上分别达到了22.4 FPS和40 FPS，相较于DBNet网络，在推理速度上略有下降，但在F分数上分别提高3.2%和0.8%。