【技术综述】图像与CNN发家简史，集齐深度学习三巨头

本文首发于微信公众号《与有三学AI》

没有一个经典的发现会是突然之间横空出世，它总是需要一些积淀。

提起卷积神经网络，我们总会从LeNet5开始说起，但是LeNet5不是起点也不是终点，这一期扒一下图像和CNN的发家历史。

01图像

1.1 什么是图像

人们睁眼看世界，看的就是图像。图像的英文名是image，来于拉丁文imago，image如果用英文来定义，包含"representation,reflection, apparition, semblance, copy, visible form"等。

图像有图有像，两者是有差别的。图，是客观世界的存在，从物理上说，是物体反射或透射光的分布。而像，则是人的视觉系统所接受的图在人脑中形成的认识。

所以先有图，后有像。

人类的文明历史，经过了从结绳记事，文字记事，到如今的图片，视频记事的发展历史，正所谓一图胜千言，我们不妨将图片的发展史看作人类文明的发展史的一个缩影，并不过分。

1.2 模拟图像

所谓模拟图像：就是通过某种物理量（如光、电等）的强弱变化来记录图像亮度信息。

模拟图像的出现应该从1826年前后法国科学家Joseph Nicéphore Niépce发明第一张可以永久记录的照片开始，到如今已将近两百年，那一张图片如下。

从19世纪30年代到20世纪中期计算机的出现，中间有一百多年的历史。那时候的图像的发展史，实际上差不多就是摄影的发展史，所以我为什么要玩摄影呢？

当然，年纪大一点的肯定看过模拟电视。那一种没有信号就拍一拍的感觉，自己懂。

1.3 数字图像

数字图像的诞生并不与计算机完全挂钩。

战争往往是催生技术发展的最好外部因素，在第一次世界大战（1914年7月28日至1918年11月11日）后的两年，也就是1920年数字图像被发明了，用于报纸行业。

当时为了传输这一幅图像，巴特兰有线电视图像传输系统

（Bartlane cable picture transmission system）

被发明，实际上主体就是一根海底电缆，从英国伦敦连接到美国纽约。

1921年实现了第一幅数字图像的传送，耗时3小时，编码解码都是用打印机来完成的。

当时用了5个灰度级进行编码，大家知道现在用的是8个灰度级。

为什么是5个灰度级呢，实际上这是因为人眼就只能分辨这么多，分的再细也没有用，可以感受一下下图，5个灰度级和6个灰度级的差别。

20世纪50年代电子计算机被发明，人们开始利用计算机来处理图像，数字图像处理则开始正式作为一门学科在20世纪60年代初期诞生。

早期的图像处理的目的是改善图像的质量，美国喷气推进实验室（JPL）对航天探测器徘徊者7号在1964年发回的几千张月球照片使用了图像处理技术，包括几何校正、灰度变换、去除噪声等方法进行处理，成功地绘制出月球表面地图，这可以算是最早的数字图像处理了。

然后慢慢的全世界人民就一起研究图像了。

模拟图像和数字图像的区别，大家可以感受一下。

扯的有点多，总之图像就是这么来的。

02视觉机制

图像被发明了，接下来就需要解析人眼到底是如何分析图像，这个非常复杂。我们不做过多的讲述，只描述与咱们的主题，也就是计算机视觉和神经网络有关的部分。

2.1 感受野

现在每个人都知道卷积神经网络中的感受野，但是要研究并证实到这一点，并不是谁都能做到。

大脑的基本感知单元就是神经元，一个神经元所影响的刺激区域就叫做神经元的感受野，即receptive field，不同神经元感受野的大小和性质都不同。

视觉感受野的研究来自于美国神经科学家哈特兰（Keffer Hartline）和匈牙利裔美国神经科学家库夫勒（Stephen W. Kuffler），1953年他们发现猫视网膜神经节细胞的感受野具有同心圆结构。

很简单很直观是吧，但是需要验证。如果今天你说你的眼睛或者某卷积核的感受野的不是一个中心对称的形状，那么恭喜你，可能要从源头挖了计算机视觉的根了。

2.2 朝向敏感

尽管有了感受野，但是视觉感知的机制仍然没有被得到更深刻地理解，直到视觉功能柱的发现。

加拿大神经生理学家David Hunter Hubel和瑞典神经科学家Torsten Nils Wiesel在20世纪50年代和60年代开始研究视觉机制，他们发现：有些细胞对某些处在一个角度上的线条或者明显的边缘线有特别的反应，这就是绝大多数视皮层细胞都具有的强烈的方位选择性。

不仅如此，要引起这个细胞反应，直线的朝向还只能落在一个很小的角度范围里，也就是该细胞的感受野内。

相邻的细胞还具有相似且重叠的感受野，随着感受野的大小和位置在皮质上系统地变化，就形成了完整的视觉空间图。

听起来有点拗口，但是如果你愿意去看论文【1】，会有收获。

结论就是，猫眼对于灰度的绝对值不敏感，对于边缘和朝向很敏感，这一点就是 “Marr视觉分层机制” 的基础。

从1960年到1980年，两人合作了20多年，细致科学地研究了人眼视觉的机制，因此他们被认为是现代视觉科学之父，并于1981年一起获得了诺贝尔生理学与医学奖。

2.3 总结

David Hunter Hubel和Torsten Nils Wiesel在1968年发表的论文确定了大脑中两种基本的视觉细胞类型:

(1)简单单元，感知具有特定方向的特征，对应LeNet5中的S卷积网络层。

(2)复杂细胞，对简单单元的结果做出反应，提高对位置，旋转的不变性，对应LeNet5中的C池化层。

总之，视觉机制揭示了视觉的本质。感知是通过从低层细胞到高层细胞不断抽象来完成，更高层的细胞，拥有更高级的感受野，并且对一些偏移等具有一定的不变性。

MIT的科学家马尔（David Marr）基于此提出了他的视觉分层理论，即视觉包含初级视觉、中级视觉和高级视觉三个层次，感兴趣可以自行了解。

03卷积神经网络发家

我们在这里，不说神经网络的基础，因为一说，就又需要扯一大堆的东西。

直接上卷积神经网络。

3.1 neocognitron【2】

neocognitron也是有前身，但那个就不说了。1980年推出的neocognitron是第一个真正意义上的级联卷积神经网络，不过它并不完全是现在的卷积的形式。

麻雀虽小，该有的其实都有了。

从上图可以看出，这是一个cascade结构，按照S，C模块进行重复串接，而且，信号的幅度是模拟的，即具有非负性。

它已经有了卷积神经网络的基本特征，比如输入是原始的图像信号，大小为19*19，说明学习是一个无监督的过程。

第一个S层，大小为19*19*12，通道数为12，卷积的大小为5*5。

第一个C层，大小为21*21*8，可知道进行了一个像素的边界补齐，从S层到C层，进行了通道的融合，输入通道为12，输出为8。

依次串接S层和C层，直到最终的输入1*10，即分类结果，这是用于识别0～9的手写数字。

值得注意的从，从S到C层，输入输出神经元的连接并不是通过一个标准的滑动窗口的卷积来完成，下图展示了其中的一个案例。

neocognitron对于要识别目标的小的形状变化和位移拥有不变性，S层提取的局部特征被输入C层，完成了低层局部特征到高层的整合。

从提出后，neocognitron也进行了多次的迭代。1988年为时间信号开发了新版本，1998年进行了改进，在2003年形成了通用版本并在同一年简化。如果你感兴趣，不妨去读以前的文章，别有一番风味。

3.2 TDNN【3】

深度学习的突破其实是从语音开始的，卷积神经网络早期一样被用于语音。

时间延迟神经网络（TDNN）是第一个用于声音信号处理的卷积网络，被Hinton组于1989年提出，三巨头被称为三巨头，自然是有历史功绩的。

网络结构如下，其实就是想办法将语音信号变成图像，这里就是一个频谱图。

正好笔者最近开始做语音，有时间，我回来细讲。

3.3 LeNet-1【4】

终于，到了1989年，Yann LeCun和Y. Bengio等人（集齐三巨头了吧）开始认真研究卷积神经网络。后来10年的时间里，LeNet系列网络开始迭代，直到最后1998年的LeNet5。

LeNet5大家早就说烂了，我们也说过，下面就说说LeNet1吧。

其实LeNet1之前还有一个网络，使用的输入大小为16*16，有9298个样本，网络结构共包含3个隐藏层，分别是H1，H2，H3，感兴趣可以去对应文末参考链接找资料。

LeNet1的结构长上面这样，一看就是“LeCun亲生的儿子”，和大家见惯不惯的LeNet5很像了吧，下面把LeNet5也放出来看看。

无非就是输入图像大小，网络宽度，深度的调整，这其实反映了当时束缚神经网络发展的一个关键，硬件计算能力，因为反向传播理论早就成熟了。

看来，出来混，还得有一身好装备。

后面要说的，就不在这篇文章里了，尽情期待。

参考资料

[1] Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex[J].The Journal of physiology, 1962, 160(1): 106-154.

[2] Fukushima K. Neocognitron: A hierarchical neural network capable of visual pattern recognition[J]. Neural networks,1988, 1(2): 119-130.

[3] Waibel A, Hanazawa T, Hinton G, et al. Phoneme recognition using time-delay neural networks[M]//Readings inspeech recognition. 1990: 393-404.

[4] https://medium.com/@sh.tsang/paper-brief-review-of-lenet-1-lenet-4-lenet-5-boosted-lenet-4-image-classification-1f5f809dbf17

十月开始，我们有三AI学院开启了“稷”划和“济”划，帮助想入行以及想取得更多实战经验的同学。内容覆盖从自动驾驶到美颜直播等领域的实战项目，从图像基础到深度学习理论的系统知识，欢迎关注。

有三AI“【济】划”，从图像基础到深度学习

有三AI“十月【稷】划”，从自动驾驶到模型优化

有三AI“十一月【稷】划”，从调参大法到3D重建

作者：言有三

链接：https://www.jianshu.com/p/c3144982f55d

來源：

著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

【技术综述】图像与CNN发家简史，集齐深度学习三巨头

你可能感兴趣的:(【技术综述】图像与CNN发家简史，集齐深度学习三巨头)