通过角点定位和场景分割的多朝向场景文本检测

通过角点定位和场景分割的多朝向场景文本检测

论文主要思想

通过定位文本边框的角点和相对位置的文本区域分割

网络

网络架构

通过角点定位和场景分割的多朝向场景文本检测_第1张图片
Net.png

特征提取

  1. 使用全卷积网络来提取特征、角点检测、位置敏感分割
  2. 模型的主干是预训练的VGG16
  3. 引入了FPN/DSSD的主干来提取特征

特征提取细节

  1. 将VGG16的fc6和fc7分别转换为卷积层conv6和conv7
  2. 额外的卷积层(conv8 conv9 conv10 conv11)叠于conv7上方来增大特征提取的感受野
  3. 一些DSSD提取的反卷积模块被用天top-down路径中
  4. 为了更好的检测不同大小的文本,使用从conv11到conv3 256通道的反卷积模块(conv10 9 8 7 4 conv3的特征被重复使用)
  5. 一共内置6个反卷积模块
  6. 通过conv11和反卷积模块有更丰富的特征表示,被用来检测角点和预测poistion-sensitive maps

角点检测

  1. 类似SSD和DSSD,用默认框检测角点
  2. 每一个默认框输出分类得分和偏移,对应于4种类型的角点
  3. 采用以一种卷积的方式用两个分支来预测得分和偏移
  4. 卷积fiters都设置为256
  5. 每个cell有k个default boxes
  6. "score"分支和"offset"分支分别为每一个默认框的每种类型角点输出2个分数和4个偏移(2是指在这个位置是否存在一个角点)

Position-Sensitive 分割

  1. 对于文本边框R,一个g*g的网格被用来将边框分成不同的bins
  2. 对于每个bin,一个segmentation map被用来决定map中的这个像素是不是属于这个bin
  3. 重新使用了F3 F4 F7 F8 F9的特征,他们上面建一些卷积模块,遵循角本检测分支的残余模块
  4. 这些块被resize为F3大小,然后用1 2 4 8 16的scale factor.同一尺寸的的输出被加在一起产生更丰富的特征
  5. 最后position-sensitive分割图有g*g通道,大小跟输入图一样大,g默认为2

损失函数

lconf.png
lloc.png
llseq.png
Loss.png

你可能感兴趣的:(通过角点定位和场景分割的多朝向场景文本检测)