Stanford CS231n深度学习与视觉-1学习笔记

学习感想

       斯坦福的CS231n课程主要是介绍深度学习(特指卷积神经网络算法)在计算机视觉领域的应用。据可靠调查研究显示,未来85%的互联网资源将是多媒体信息,如何从视频资源、图片资源中识别出特定的物体信息、理解物体间的关系等等,意义重大。

       第一节课程主要介绍了计算机视觉的时间简史,令我大开眼界哩。

  • 视觉的出现:一切都要从5.4亿年前说起,那一年在物种爆发让地球一下子热闹了起来,究其缘由,澳大利亚的地质学家Andrew Parker提出了一种最有说服力的解释:物种爆发源于眼睛的出现。在物种爆发之前,地球就是一大锅水,稀少的物种主要是漂浮在水面上,张着嘴巴,守株待兔似的等待食物漂浮到嘴里,但是一旦有一种物种进化出了眼睛,视觉让它可以进行捕食,这样子就催发了捕食者与被捕食者的关系,被捕食者为了生存也需要进化出眼睛来逃避捕食者。这种生物间的矛盾促进了生物的共同进化,也成为激发物种大爆发的缘由。
  • 现代视觉工程技术:照相机的出现,可爱的达芬奇设计出了第一台照相机的图纸原型。但是这个阶段的目的是复制世界上的信息,而不涉及信息的处理。
  • 科学上的两大发现:1、Stanford 的两位年轻的科学家Hubel和Wiesel的猫的实验,给出了第一个重要的启发:视觉处理流程的第一步,是对简单的形状结构进行处理。他们将电级插入猫的基础视觉皮质层(位于大脑后侧,距离眼睛很远哟~),然后,给猫看鱼、老鼠等图像来观察神经元的脉冲反应,他们发现只有在幻灯片切换时,才会产生神经脉冲而非具体的图像的展示。2、David Marr撰写的《视觉》中,提出视觉是分层的。
  • 计算机视觉的出现:1966年夏,MIT成立AI实验室。最早的两个AI实验室:一个是由MIT的Marvin MInsky创办的,另一个出现在Stanford,由John McCarthy创办。
  • 成果:论文Viola Jones Face Detector在2006年转变为世界上第一个人脸识别产品,是由富士公司开发。神经网络的开始:日本的Kunihiko Fukushima提出了Neocognition;Yann LeCun提出了反向传播等。
  • 图像识别研究角度:1、阶段一:通过对物体进行整体建模  2、阶段二:识别是什么,我们对物体的识别并不是识别全部的形状,而是通过典型特征就能识别出物品,重要特征识别,SVM图像建模等。3、阶段三:Deep learning:包括卷积神经网络算法(CNN),崛起缘于2012年,关于Deep learning的出现,不得不提,Stanford创办的ImageNet比赛,ImageNet包含有5000万个图片,全部标注、分类(有亚马逊众包平台完成)。在2012年,Alex Krizhevsky和他的导师Geoff Hinton对CNN算法进行了简单的改进(CNN出现在上个世纪70-80年代)后将图片识别的错误率较2011年减少了一半多,实现了质的飞跃。
  • 深度学习的发展前提:摩尔定律、硬件发展、Big Data
  • 展望:看图讲故事(给一张图,计算机可以编辑一段文字来描述图片内容).............

资源来源(©大数据文摘):

斯坦福CS224d+CS231n

汉化视频+原版PPT

链接: http://pan.baidu.com/s/1c280aLq 密码: nt94


       

                     

你可能感兴趣的:(深度学习)