The architecture of TextBoxes++

 

The architecture of TextBoxes++_第1张图片

1)网络架构:文本框的架构++

如图2所示。它继承了流行的VGG-16 AR-结构[46],保持层从conv1_1到转换最后两个完全连接的层将VGG-16分成卷积层(conv6和conv7)按参数下采样[10]。另外八个卷积-划分为四个阶段(conv8到conv11)的国际层最大池的不同分辨率附加了af-特conv7.多个输出层,我们称之为文本框层,在最后一个和一些中间层之后插入卷积层。它们也是卷积层预测聚合的输出,然后进行有效的非最大抑制(NMS)过程。把一切放在上面总之,textbox++是一个完全卷积的结构con-仅支持卷积和聚集层。因此,文本框++可以适应两种图像中任意大小的图像培训和测试阶段。与初步研究相比在本文的[13]中,textbox++替换了最后一个全局变量具有卷积层的平均池层,即更有利于多尺度的培训和测试

具有垂直偏移的默认框:文本框图层是文本框++的关键组件。文本框层同时预测文本存在和边界框,以其输入特征图为条件。输出边界文本框+包括定向边界框q或r,以及最小水平边界矩形b包含相应的定向边界框。这个是通过预测补偿的回归来实现的。每个预设水平默认框的数量位置(示例见图3)

More precisely, let b 0 =(x 0 ,y 0 ,w 0 ,h 0 ) denote a horizontal default box

默认框的中心点和w 0和h 0是默认框宽度和的高度。

The relationships among q 0 , r 0 and b 0 are as following:

The architecture of TextBoxes++_第2张图片

在每个地图位置,它输出分类分数和每个相关默认框的偏移量,在中表示为q 0或r 0迂回的方式。对于四边形表示对于定向文本,文本框层预测

指示水平矩形 b = (x,y,w,h) and a 四边形 

given in the following are detected with confidence c

The architecture of TextBoxes++_第3张图片

 

当旋转矩形表示为使用时,文本框层预测

 

and the rotated rectangle 

is calculated as following:  

The architecture of TextBoxes++_第4张图片

 

你可能感兴趣的:(多尺度检测,计算机视觉,物体检测,目标检测,字符识别,文本检测)