CTPN理解

CTPN理解_第1张图片 CTPN pipline
  • 类似于faster rcnn的二阶段检测算法,通过anchor作为中间元素进行回归;不同之处是增加了LSTM单元;
  • anchor 固定宽度为16个像素,高度设定为10个值;
CTPN理解_第2张图片 ctpn中的anchor 图片来自 这里
  • IOU的计算,由于anchor指定宽度16,所以对GoundTruth的坐标也进行变换,得到宽度为16的GT。和faster rcnn一样计算anchor与GT的IOU;
  • RPN为LSTM输出序列经fc后得到部分;
CTPN理解_第3张图片 CTPN中的RPN,图片来自 这里
  • proposal直接与网络的预测值计算损失。proposal不涉及pooling操作。
  • loss 

  • 预测时,对预测框先进行nms得到固定宽度的栅格框
  • 合并栅格框——文本线构造算法
CTPN理解_第4张图片 图片来自 这里

参考文献:

  1. 场景文字检测—CTPN原理与实现
  2. 深度学习-TextDetection

 

你可能感兴趣的:(检测算法,OCR,ctpn)