2017 CS231n学习笔记(一)----计算机视觉历史简述(Computer vision overview)

video:https://study.163.com/course/courseMain.htm?courseId=1004697005
slides:http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture1.pdf
course notes:http://cs231n.github.io/
文章所有内容来自Stanford university 课程 CS231n 2017 spring

生物视觉

公元前5430万年前,地球生物数量急剧上涨,这就是我们称之为的生物大爆炸(Evolution’s Big Bang)。生物学家分析这个事件发生背后的原因,为什么会在这个时间点生物的数量会急剧上涨?通过研究一些生物的化石,生物学家发现,在这个时间点地球上的生物开始出现了类似于视觉的机制,生物开始能够看见世界,看见其他生物,为了生存,生物之间相互捕猎厮杀,加剧竞争,因此生物也加速进化以获得优势。
2017 CS231n学习笔记(一)----计算机视觉历史简述(Computer vision overview)_第1张图片

机器视觉

生物的视觉,特别是对有智慧的生物比如人类来说是十分重要的,那么,机器如何获得视觉呢?目前已知的相机要追溯到17世纪文艺复习时期的黑箱,这是一种通过小孔成像的相机,这和动物早期的视觉非常相似,都是通过小孔接受光线,通过平板接受信息并且投影成像。
2017 CS231n学习笔记(一)----计算机视觉历史简述(Computer vision overview)_第2张图片

生物视觉机理

生物学家开始研究生物视觉的机理,其中最具影响力,影响了人类视觉和动物视觉并且启发了计算机视觉的一项研究是五六十年代 Hubel & Wiesel 使用电机生理学的研究,他们提出的问题是“哺乳动物的视觉处理机制是怎样的?”,于是他们选择了视觉处理机制与人类相似的猫来进行实验,他们将电极插入了主要控制猫视觉后脑上的初级视觉皮层,然后观察,哪种刺激会引起视觉皮层的激烈反应。他们发现猫的初级视觉皮层其中最重要的细胞是当它们朝着某一个方向移动时,对面向边缘产生回应的细胞。他们发现视觉处理是基于视觉简单结构,面向边缘,沿着视觉处理方向的移动,然后大脑建立复杂的视觉信息。
2017 CS231n学习笔记(一)----计算机视觉历史简述(Computer vision overview)_第3张图片

计算机视觉

因此,计算机视觉的历史也是从60年代初开始。Larry Roberts出版的第一部作品Black World,也是广泛意义上的计算机视觉的第一篇博士论文。其中视觉世界被简化为简单的几何形状,目的是能够识别它们,并重建这些形状是什么。
2017 CS231n学习笔记(一)----计算机视觉历史简述(Computer vision overview)_第4张图片

MIT的视觉科学家David Marr 在70年代后期写了一本非常有影响力的书,其中包括他是如何理解视觉,我们应该如何处理计算机视觉,甚至开发如何是计算机能够识别物体的算法。
2017 CS231n学习笔记(一)----计算机视觉历史简述(Computer vision overview)_第5张图片

其中指出,从一张拍出的照片到3D的表示,必须经历几个过程。第一个过程就是Primal Sketch,大部分的边缘、断点、虚拟线条、曲线、边界都可以用其他元素来表示。第二个阶段是2.5-D Sketch,将表面的深度信息和不连续性拼凑在一起,并在表面和体积图等分层组织了3-D模型。
2017 CS231n学习笔记(一)----计算机视觉历史简述(Computer vision overview)_第6张图片

这样的方式影响了计算机视觉几十年,很长一段时间,研究者都在探索计算机视觉的任务是什么。现实世界的物体是复杂的,如何识别和表示物体?重建或识别可以由简单的物体结构组成视觉空间,在八十年代,研究者开始使用简单的圆柱、圆和线条来表示人体结构。对计算机来说,识别物体太难了,所以就有首先做图像分割,就是把一张图像中的有意义的像素归结在一起。1999-2000年,机器学习技术,特别是统计机器学习方法(支持向量机、boosting、图模型等方法),使用这些方法在2001年的时候就可以在设备上实现real-time面部识别。2006-2012期间,出现了著名的计算机视觉数据集benchmark:PASCAL Visual Object Challenge(20 object categories) 。之后出现IMAGENET数据集,其中包含22,000个类 和 14M 张图片,并在其中选择了1,000 类 和 1,431,167 张图片,举办了Large Scale Visual Recognition Challenge。
2017 CS231n学习笔记(一)----计算机视觉历史简述(Computer vision overview)_第7张图片

上图显示了近几年,Large Scale Visual Recognition Challenge的情况,横轴是比赛的年份和人类水平,纵轴是错误率。可以看出,在2015年,错误率已经小于人类的水平了。还可以看到2011年到2012年,错误率下降了近10%,这得益于这门课主讲的卷积神经网络(CNN, Convolutional Neural Networks)

在CNN出现之前,都是通过分级处理的结构来解决物体识别问题,通过一些方法找到局部不变的特征,然后通过降采样后给分类器分类。2013年,提出了AlexNet(也叫supervision), 他是一个7层或8层的CNN。CNN逐渐增加网络的层数,如来自Google的Inception和VGG,甚至有一百多层来自MSRA的ResNet。

2017 CS231n学习笔记(一)----计算机视觉历史简述(Computer vision overview)_第8张图片

其实CNN并不是2012年才提出的,可以从下图看到,LeCun et al.提出的用于识别数字和字母的网络与2012年的CNN相差不大,那为什么当时的CNN没有发展起来呢?主要有两个原因:

  1. 计算机计算力:1998年计算机的计算能力远远小于现在使用GPU的计算力。
  2. 数据量:1998年没有2012年那么大规模的用于训练的数据集

2017 CS231n学习笔记(一)----计算机视觉历史简述(Computer vision overview)_第9张图片

你可能感兴趣的:(2017,CS231n课程学习笔记)