OCR识别的几种深度学习方法

OCR识别分两步:

1、检测:找到包含文字/数字的区域(proposal);


2、分类:识别区域中的文字/数字。

检测:
1、 faster-rcnn系列:基于区域的对象检测,特点是精度较高,缺点是速度慢;


2、yolo系列:基于回归的对象检测,特点是速度快,缺点是精度低。

分类:
1、Ian goodfellow在13年提出的multi-digit number classification([1312.6082] Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks), 基于deep CNN.缺点是要事先选定可预测的sequence的最大长度,较适用于门牌号码或者车牌号码(少量字符, 且每个字符之间可以看作是独立); 


2、RNN/LSTM/GRU + CTC, 该方法最早由Alex Graves在06年提出应用于语音识别。优点是可以产生任意长度的文字,并且模型的性质决定了它有能力学到文字于文字之间的联系。缺点是计算效率较CNN低。


3、attention-mechanism,attention可以分为hard attention和soft attention. 其中hard attention能够直接给出hard location,通常是bounding box的位置,优点是直观,缺点是不能直接bp。soft attention通常是rnn/lstm/gru encoder-decoder model可以bp。

你可能感兴趣的:(计算机视觉,深度学习,ocr)