随着国家明确了金融业发展和改革的重点方向,我国金融数据信息化有了显著的发展和进步。基于债券图表数据的特定情况,人工处理债券图表数据存在效率低、成本高、安全性低等问题,用人工智能的方法来检测债券图表数据逐渐成为了当下的热门研究方向。由于债券图表数据在长时间存放、人为损坏等主客观因素下,会存在模糊、被污染等特点。对此本文使用了Swin-Transformer作为主干网络,它的特征提取能力较CNN (卷积神经网络)更为强大。并对模糊、污染的区域设计了方向感知模块,使其对文本区域的识别正确率更高。实验结果表明,该网络比其它文本检测算法在准确率、召回率、F1值上都有明显提升。
文本作为人类智慧的结晶,是人类文化、思想传承的一种基本信息载体[1]。在电子设备日益发展的今天,智能手机、数码相机等被人们广泛使用,伴随的是不计其数的文本以图像或者视频的数据形式被保存下来。同时,移动互联网技术的快速发展使得人们希望利用计算机对图像或者视频中的文本进行检测,来提高各种应用场景的生产效率,比如债券数据、文档数据等业务需求。
针对文本检测这个任务,早期的传统文本检测方法主要分为两大类,一是基于滑动窗口的检测;二是基于连通区域分析的检测。近年来,由于深度学习具有以下特征而被越来越多的研究人员使用,首先是自动化程度高,能够自动地捕获文本图像的高级视觉特征;其次是检测性能高效,基于深度学习的文本检测算法相比于基于手工设计特征的传统算法而言,识别性能更好;最后是泛化性能优越,可以很容易地应用到相似的视觉任务。但图像中的文字区域存在模糊、污染这种特征量较少的区域,它们可能就会产生错误的判断,因为它们无法分析和理解全局图像语义。
检测模糊和污染区域需要使用全局图像语义才能得到更好的效果,为此本文提出了方向感知模块来分析图像上下文信息,通过周围的信息来识别文本区域可以得到更加准确的结果。以图1 中的区域A 为例,将其与区域B 和C 进行比较,区域B 会比区域C 更有力地表明A 是文本区域。因此在检测模糊、污染的文本区域时,不同方向上的上下文信息将提供不同的帮助。
Figure 1. The picture is blurred in some areas 图1. 图片局部区域模糊