EAST: An Efficient and Accurate Scene Text Detector
传统的文本检测方法,包括一些深度学习模型,往往是multi-stage的,不论是最终的效果或者是训练的难度都会受到影响。本文提出了一种在自然场景下也快速、准确的端到端文本检测模型,这一模型消除了传统方法中间的多个阶段,如候选区域选择、文本分词等,直接预测图中任意方向和四边形形状的文字或文本行。
Introduction
现有的文本检测方法,大都由若干阶段组成,这些组合的方法可能是次优且耗时的。本文提出的模型,利用全卷机网络FCN直接生成单词或者文本行级别的预测,生成的文本预测(可以是旋转的矩形或四边形)通过非最大抑制NMS以产生最终结果。
主要贡献分为三方面:
- 提出一种场景文本检测方法,包括FCN和NMS两个阶段,不包含冗余的中间过程。
- 可灵活的生成文字级或者文本行级别的预测,形状可以使旋转框或者四边形。
- 算法在准确性和速度方面由于目前最先进的方法。
Relate Work
略
Methodology
本文算法的关键部分是神经网络模型,可以从完整图像中直接预测文本及实例及其几何形状,后处理仅包括预测的几何形状上的阈值选取和NMS。
3.1 整体结构
模型中,图像进入FCN,会生成多个像素级文本得分和几何形状的通道。预测的通道之一是得分图,其值在[0,1]中。其余的通道代表包含文本的几何形状。分数代表了在同一位置预测的几何形状的置信度。
我们实验了两种不同的几何形状:旋转框RBOD和四边形QUAD, 并设计了不同的损失函数。每个预测的区域中,分值超过阈值的将被认定为有效的并进行NMS,NMS的输出被认为是最后的结果。
3.2 网络设计
在设计网络的实时必须要考虑的是,由于不同情况下字的大小变化很大,确定大字是否存在需要神经网络后期的特征,而预测小字的几何形状则需要早期的低级特征,因此所设计的网络必须满足这些需求。
具体流程如下:
- 先用一个通用的网络(论文中采用的是Pvanet,实际在使用的时候可以采用VGG16,Resnet等)作为base net ,用于特征提取。
- 基于上述主干特征提取网络,抽取不同level的feature map(它们的尺寸分别是inuput-image的 1/32, 1/16, 1/8, 1/4,这样可以得到不同尺度的特征图.目的是解决文本行尺度变换剧烈的问题,ealy stage可用于预测小的文本行,late-stage可用于预测大的文本行。
- 特征合并层,将抽取的特征进行merge.这里合并的规则采用了U-net的方法,合并规则:从特征提取网络的顶部特征按照相应的规则向下进行合并。
- 网络输出层,包含文本得分和文本形状.根据不同文本形状(可分为RBOX和QUAD),输出也各不相同。
特征合并的实现细节如下:
- 特征提取网络层中抽取的最后层feature map被最先送入uppooling层(这里是将图像放大原先的2倍),
- 然后与前一层的feature map按照channel axis进行concatenate。
- 接着通过1*1卷积核缩减通道的数量
- 最后通过3*3的卷积核融合信息。
在最后的输出层,通过多个1*1的卷积操作,得到最终1个通道的分值图,和多个通道的几何图:
- 对于检测形状为RBOX,则输出包含文本得分和文本形状(AABB boundingbox 和rotate angle),也就是一起有6个输出,这里AABB分别表示相对于top,right,bottom,left的偏移
- 检测形状为QUAD,则输出包含文本得分和文本形状(8个相对于corner vertices的偏移),也就是一起有9个输出,其中QUAD有8个,分别为 (x_i,y_i),i\subset[1,2,3,4]
3.3 标签的生成
略
3.4 损失函数
损失函数由两部分组成,score map loss 和geometry loss,λ为平衡两种损失的参数值。
3.4.1 分数图的损失
采用的是类平衡交叉熵,用于解决类别不平衡训练,公式如下:
3.4.2 几何损失
文本在自然场景中的尺寸变化极大。直接使用L1或者L2损失去回归文本区域将导致损失偏差朝更大更长.因此论文中采用IoU损失在RBOX回归的AABB部分,尺度归一化的smoothed-L1损失在QUAD回归,来保证几何形状的回归损失是尺度不变的。
针对RBOX的AABB部分,损失为:
旋转角度部分,损失为:
所以总的损失可以表示为:
针对QUAD loss, 具体公式如下:
3.6 局部感知的NMS
与通用目标检测相似,阈值化后的结果需要经过非极大值抑制(NMS)来得到最终的结果.由于本文中面临的是成千上万个几何体,如果用普通的NMS,其计算复杂度是O(n^2)
考虑到邻近的像素2往往是高度相关的,我们提出了基于行的合并几何体的方法,在最好的情况下可以达到O(N)的复杂度。
参考: