最开始看LeNet-5的98年论文还不知道这是个啥,这两天找出来原来的论文粗略的看了看,发现其实是这么一个步骤,并不是很难。
但是很悲伤的是并没有博客对于这些文章进行一个大概的描述,很遗憾不能先粗浅的入门再精度。
传统的方法比如说nn是确定长度的向量,rnn,tdnn等不适合这样的一个情况,那么就采用将图像转化成为图来表示,而到底切分还是不切分则使用图的边权来表示。
1.首先粗定位,找到要识别的比如说邮编啦或者其他的东西在支票上的位置(因为这个系统是应用于支票的识别的,错误率1%,reject49%,正确50%)
2.选出一些候选切分点,这是通过传统的计算机视觉方法来确定的,宁多勿少。
3.每一个切分后的片段用一条弧来代表,每一个切分点用一个图节点来代表,那么最终这个待切分的图就能够用一个有向图来表示,而且很好的一个性质是,这个图的节点之间是有序的。图的每一条边包含两个数据,一个是类别,一个是penalty。这两项可以看作是负相关,如果某一个片段越准确,或者说越像是一个正确的类别,那么penalty就越小。
4.运用维特比算法对于这个图进行处理,可以找到一个最小的路径从start到end。也就是penalty最小的path,代表着这条路径上,每一个片段都尽可能的像是一个完整的分类。
附:
其中涉及的log-likelihood定义如下:
参考文献:
1.Bottou L, Bengio Y, Lecun Y. Global training of document processing systems using graph transformer networks[J]. Computer Vision and Pattern Recognition, 1997.
这篇文章是比较长的GTN的论述,比较全面
2.Lecun Y, Bottou L, Bengio Y. Reading checks with multilayer graph transformer networks[J]. International Conference on Acoustics, Speech, and Signal Processing, 1997.
这篇文章算是上一篇文章的精简版
3.数学之美——维特比算法
我最早是在数学之美上看到的维特比算法,可以顺便了解一下维特比这位神奇的人物