CS231n系列之 Lecture1:Introduction

    实验室老师的要求,是要自己学习斯坦福大学的CS231n的课程,所以,准备做一系列用以记录自己学习的过程。下面的链接是第一节课的视频,ppt,以及字幕,但是字幕比较不好,很多错误,时间关系也就不进行更正了。
链接: https://pan.baidu.com/s/1c1DL9r6 密码: b3xf
链接: https://pan.baidu.com/s/1mhZPS6k 密码: n3wx
链接: https://pan.baidu.com/s/1jI9LRnC 密码: 9vmw
    LZ可能接触时间比较短,讲的也比较浅显,如果又不对的地方请大家批评指正。
    这节算是比较简单,是由Fei-Fei Li主讲的,简直是计算机视觉的一个大神。
    后面的课程就是由Andrej & Justin讲课了。
    我们现在是个信息大爆炸的时代,我们现在由很多传感器,如手机,数码照相机,这些也产生了很多视觉数据。在原视频中讲到看dark matter,小白的我还刻意去百度了一下,就像是在宇宙中的黑暗物质,有些非常重要的能量我们是无法观测到的,但我们是可以通过数学方法进行推测的,好像有行星就是通过数学方法推测到的(海王星?),但是在网络中这是很困难的。Youtub的视频上传量是150h/min,大的吓人,所以有数据集就是从Youtub上整理出来的。人估计是来不及浏览了。。。
    我们现在遇到的问题就是大量的数据。计算机视觉涉及很多的领域:生物工程,物理,数学,计算机科学,机器人之类很多,所以计算机视觉是和其它很多领域有交叉的一门学科吧。现在也有特别火的机器学习,深度学习。。。
    感觉国外老师上课会讲很多背景知识,在国内感觉会直接省略,只讲主题。。。课上放了一张进化大爆炸的图片,主要是讲寒武纪生命大爆炸(cambrian period),从单细胞生物和简单的多细胞群体爆发式的产生了各种各样的生物,也就在短短的2000万年,在后的5亿多年生物进化中一个门都没有再出现,而现在,好多动植物又濒临灭绝。。。
    最开始的照相机不叫照相机,叫照相暗盒,也是最原始的相机,利用的也是比较简单的小孔成像模型。之后也就出现的胶卷,例如已经倒闭的柯达。这主要就是做一个拷贝,并不会识别图片。
    在生物学方面,1959年,Hubel和Wiesel合写的“视觉皮层的早期研究”中详细描述了发现视觉皮层的简单细胞,复杂细胞,超复杂细胞的经过,及以后舍弃“超复杂”,改用“末端停止”的理由;视觉剥夺实验;17区以远脑区的复杂功能等等。因此,他们也获得了诺贝尔生理或医学奖得主。
    块状世界,是计算机视觉的开始,由Larry Roberts在1963年PHD论文中写到的,这主要记录了光度,方向还有边缘信息。
    1996年MIT的计算机视觉项目成立。在1970s, David Marr写了一本书叫VISION,他把图片分成像素,边缘信息图片,表面的方向和不连续的深度,3D模型。
    1979年,Brooks & Binford提出了广义圆柱体模型。1973年,Fischler & Elschlager提出了图案结构模型。1987年,David Lowe提出了简单的边缘和简单的形状表示。1997年,终于到了彩色图片,Shi & Malik 提出了归一化分割,把相同的像素组合在一起。2001年,Viola & Jones 把人脸检测做到了实时,提出了简单的黑白滤波器提取特征。1999年,David Lowe提出了SIFT特征。因为对于人来说,很难对整幅图进行理解,对于机器更难,所以提取特征就可以通过对一些简单特征的识别,就可以理解并建立模型,这也大大加快了图像识别的速度。2006年, Lazebnik, Schmid & Ponce提出了空间金字塔匹配模型。2005年, Dala & Triggs提出了HoG(Histogram of Gradients)。2009年,Felzenswalb, McAllester,Ramanan提出来Deformable Part Model。
    针对这么多提出的模型,如果没有一个统一的评价指标是没有办法来确定方法的好坏的。所以,提出了benchmark,在PASCAL Visual Object Challenge中由20类的目标检测,随着时间的推移,识别的准确率越来越高。但是在现实社会中,我们所遇到的目标远远不止这20类,这就促使IMAGENET的诞生,超过22K的类别,和14M的图片,想想工程量就很大。是个非常有名的数据集哦!
    这个比赛是从2010年开始的,可以从PPT中看出,每一年的错误率都在下降。但是在2012年,错误率几乎下降了10%,赢得这次比赛的结构就是使用卷积神经网络的。值得一提的是卷积神经网络并不是在2012年产生的。
    本课程主要注重的是视觉识别中的图片分类这一项。但视觉识别并不仅仅指图片分类这一项。在视觉识别中还有很多问题是和图像分类有关的,例如目标检测,图像感知等等。卷积神经网络已经在目标识别中扮演了一个非常重要的角色。
    2010年,NEC-UIUC, 2012年,SuperVision,2014年 GoogleNet, VGG, 2015年,MSRA ResNet。
    卷积神经网络不是一夜发明的。
    卷积神经网络的发展也依赖于硬件的发展,更高效的CPU和计算能力超强的GPU。
    第一节课差不多了,如果有兴趣可以把我分享的视频和PPT瞅一下哦!哈哈O(∩_∩)O
   
   

你可能感兴趣的:(深度学习)