OCR入门学习

ocr:光学字符识别(识别文字)

      分为两个部分:文字检测+文字识别

  提取图像中的文字,并转换成文本形式,供后续NLP使用

  

  •   文字检测:dbnet 、CTPN

  dbnet:  原理是基于分割算法。对于一般分割算法流程:先通过网络输出文本分割的概率图,然后使用设定阈值将概率图转化为二值图,然后通过后处理得到检测结果(文本框坐标)。但是缺点在于阈值的选取非常关键。

OCR入门学习_第1张图片                                                                

 概率图(probability map):图中每个像素点的值为该位置属于文本区域的概率

阀值图(threshold map):图中每个像素点的值为该位置的二值化阈值,大于阈值为文字区域,反之为背景。

近似二值图(approximate binary map):由概率图和阈值图通过 DB 算法计算得到(P-T),图中像素的值为 0 或 1。

CTPN:文本检测,本质上也属于物体检测,适用于从左往右书写的文本,从上往下或者弯曲的效果不是很好.

    VGG提取特征、BLSTM融入上下文信息,基于RPN完成检测

OCR入门学习_第2张图片

  • 文字识别:(ABINET、CRNN、NRTR、ROBUST_SCANNER、SAR、SATRN、SEG、TPS)

你可能感兴趣的:(学习)