斯坦福大学 CS231n 视觉识别卷积神经网络- Introduction to Convolutional Neural Networks for Visual Recogntion -1

Introduction to Convolutional Neural Networks for Visual Recogntion

单词列表(视频里一些不认识的单词)

  • hierarchically [ˌhaɪəˈrɑːrkɪkli] adv. 分层次地;分等级地
  • audacious [ɔːˈdeɪʃəs] adj. 无畏的;鲁莽的
  • hallucinate [həˈluːsɪneɪt] vt. 使产生幻觉 vi. 出现幻觉
  • psychedelic [ˌsaɪkəˈdelɪk] adj. 引起幻觉的 n. 迷幻剂

1. 图像视频信息爆炸的时代


在当今时代,由于智能手机和互联网的普及,每个人每天产生的数据信息量是爆炸的。图像和视频更是当今时代数据的主要载体 2015年的一项CISCO研究表明,在2017年互联网上80%的流量都将是视频,还不包括Web上的所有图像和一些其他的可视化数据。举个例子,在世界上每过一秒钟,Youtube上大约就有5小时时长的视频上传(2017年数据),但是显然Youtube并不能雇佣大量的人来进行视频的类别分类,所以发明研究出能够对可视化数据进行分析利用的算法是至关重要的。但是对于算法来说,可视化数据又是很难以理解和利用的。

2. 计算机视觉

斯坦福大学 CS231n 视觉识别卷积神经网络- Introduction to Convolutional Neural Networks for Visual Recogntion -1_第1张图片
计算机视觉是一个跨学科的研究领域,它涉及到了很多很多不同的科目,有物理中的光学,工程学中的机器人学,生物中的神经学, 计算机科学中的图形学等等各个科目相交叉相结合而产生的的一个新兴的研究领域。

3. 计算机视觉的历史

3.1 生物视觉的诞生

大约在五亿四千三百万年前,那时的生物是没有视觉的。但是大约三百万年过后,通过化石记录显示,在一千万年间,生物界发生了一次重大的变革,生物物种有了一次爆炸式的增长,到底是什么导致物种如此快速地增长,到现在没有一个确定的原因。在几年之前,一位澳大利亚的动物学家Andrew Parker提出了一个现在最让人信服的原因——在那时生物拥有了视觉。因为生物拥有了视觉,捕猎者才能追赶猎物,猎物也能尽自己所能的逃避猎食者的追捕,这些都促进了生物进化,也从而导致了this evolution‘s Big Bang

3.2 视觉的处理机制

在5亿4千万多年后的今天,生物的视觉系统已经日臻完善,尤其是对于人类,大约50%的大脑皮层神经元都会参与处理视觉信息。HubelWiesel在1959年的发现更是为视觉的处理机制的研究推进了一大步,他们使用电来刺激猫的大脑(和人的大脑类似)来观察神经元反应,他们最重要的发现是在大脑皮层的视觉中枢中一些简单的神经元会相应一些定向的边,也就是说视觉处理是从一些世界中的简单结构开始的,大脑只是讲这些简单的结果累加起来才得到了最后我们所看到的图像。
斯坦福大学 CS231n 视觉识别卷积神经网络- Introduction to Convolutional Neural Networks for Visual Recogntion -1_第2张图片

3.3 计算机视觉的起源和发展

3.3.1 Block world

斯坦福大学 CS231n 视觉识别卷积神经网络- Introduction to Convolutional Neural Networks for Visual Recogntion -1_第3张图片
计算机视觉(Computer Vision)也同样是在20世纪60年代初期开始的,1963年 Larry Roberts发表的 Block world (最早的计算机视觉的博士论文之一),它将图形简化为简单的几何图形,目的是能够识别图形并重构。

3.3.2 60年代的两个重要尝试

3.3.2.1 The Summer Vision Project

斯坦福大学 CS231n 视觉识别卷积神经网络- Introduction to Convolutional Neural Networks for Visual Recogntion -1_第4张图片

在1966年 有个著名的MIT的暑期项目叫 The Summer Vision Project,这个项目的目的是用一个夏天的时间来解决大部分视觉系统的问题,这确实是个很有野心的目标。现如今50多年已经过去了,计算机视觉领域也从一个单调的暑期项目发展成了在全世界拥有数以千记研究者的领域,虽然我们目前为止,还是没有彻底解决,但是计算机视觉仍是人工智能中最重要发展最快的领域之一。

3.3.2.2 Vision published by David Marr

斯坦福大学 CS231n 视觉识别卷积神经网络- Introduction to Convolutional Neural Networks for Visual Recogntion -1_第5张图片
另一个我们需要注意的人,David Marr(MIT vision scientist),他想问讲述了该如何研发相应的算法来通过电脑对现实世界进行分析理解。
这本书的中心思想是人认识一个三维物体是需要几个步骤的:

  1. Primal Sketch:Zero crossings, blobs, edges, bars, ends, virtual lines, groups, curves, boundaries
  2. 2 1/2-D Sketch(2.5维骨架):Local surface orientation and dis continuities in depth and in suface orientation
  3. 3-D Model Representation:3-D models hierarchically organized in terms of surface and volumetric primitives

这是一个很理想(idealized)的关于视觉处理机制的想法,但却是主导了计算机视觉几十年的一个思想,对于学生想要进入视觉领域的研究,这个想法也是非常讲述我们该如何拆解我们所看到的现实世界。

未完待续

视频链接:

B站 : https://www.bilibili.com/video/av15474625?p=1
Youtube : https://www.youtube.com/watch?v=OoUX-nOEjG0&list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv

你可能感兴趣的:(standford,cs231n)