论文笔记:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

1.历史方法
1)基于字符的DCNN,比如photoOCR.单个字符的检测与识别。要求单个字符的检测器性能很强,crop的足够好。
2)直接对图片进行分类。9万个单词,组合成无数的单词,无法直接应用
3)RNN,训练和测试均不需要每个字符的位置。但是需要预处理,从图片得到特征序列,独立做的,无法端到端。

2.propose method
1)端到端
2)任意长度
3)模型尺寸小
4)不针对特定字典,有无字典表现都很好

3.network如图
图: 论文笔记:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application_第1张图片
1)输入图片高度要一致
2)(创新性的地方) map2seq :在最后一个卷基层输出的所有通道上,从左到右逐列拼接,得到特征序列。按照宽度为1来输入到LSTM,这样可能多个长条特征才会cover一个单词。
图:
论文笔记:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application_第2张图片
3)bp时需要seq2map,把梯度再拼成map
4)BLSTM利用双向信息,并stacked更深
5)标注序列的概率,通过CTC Layer,label不用具体到每个字符。
公式图:
论文笔记:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application_第3张图片

任意一个label序列的概率 = 它的不同对齐方式的概率之和。
主要是空格以及重复字母的影响
note:注意映射的时候是 删除重复的字母, 删除空格。
示意图:“AAA” … “AA”是LSTM输出的不同预测的一个分布。 
论文笔记:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application_第4张图片
6)优化方法采用adadelta。SGD似乎不work。
7)trick:长方形池化,BN

end 

你可能感兴趣的:(CV)