计算机视觉简述

目录

1. 为什么要做计算机视觉
2. 什么是计算机视觉
3. 难点和挑战
4. 发展历程
5. 行业大牛
6. 两大类任务
7. state of the art

为什么要做计算机视觉

计算机视觉简述_第1张图片
如果我们把数据分为结构化数据和非结构化数据,我们可以看到,以图像为代表的非结构化数据以指数级的方式增加,为了能“读懂”海量的非结构化数据,计算机视觉技术尤为重要。
计算机视觉简述_第2张图片
在没有计算机视觉之前,我们只能把图像当作是黑盒,我们只能读到图像的文件名、尺寸、大小以及图片格式。对里面的内容我们一无所知。

当计算机视觉有了初步的发展时,我们打开一张图片,只能看到密密麻麻排列的数字,如上图所示,但是我们无法知道这些数字代表的含义。我们并不能将这些数字与小写字母a对应起来,为了解决这个问题,因此需要计算机视觉技术。

什么是计算机视觉

计算机视觉简述_第3张图片
狭义上来说,计算机视觉就是要看懂图像的内容,比如上图,我们可以知道有一个人在放牛,并且知道这个人戴着草帽,赤裸着上身,穿了黑色的裤子,并且在打电话,这头牛是黑色的。

那么人是怎么得到的这些信息呢,靠我们的视觉系统。神经学家的研究发现,人的视觉系统主要分为视网膜,v1层、v2层、v4层几部分。那每一部分的作用是什么呢? 视网膜主要是将物体投影到视网膜上,然后通过视觉神经,将光信号转换为电信号,传到大脑皮层。v1层主要是对边缘信息比较敏感,作用类似于传统图像处理中的拉普拉斯算子,sobel算子等,目的是提取物体的边缘信息。v2区域的目的是将边缘信息组合成简单的形状,也就是物体的局部信息,而v4区域就是直接得到语义信息。

计算机为了能跟人一样得到语义信息,因此也希望模仿人的视觉过程提取物体的特征,比如神经网络,通过多层的特征提取也可以生成图像的语义信息,虽然深度学习目前仍然缺乏可解释性,但是我们简单的提取第一层的结果,会发现作用也是提取梯度,只是后续的层我们就无法看出作用了

难点和挑战


那么计算机视觉的难点在哪里呢?毫无疑问是特征的提取。如果我们要识别物体,我们希望相同类别的物体提取的特征是相近的,不同物体的特征是差别巨大的,但是如上图所示,如果我们对图像仅仅用来l2距离来排列,我们发现,排列在一起的图像是背景颜色相近的图像而不是语义相同的图像。还有一个难点,在于神经网络在处理图像时参数量大,计算量大,因此gpu的发展为推动计算机视觉的发展也贡献巨大。

发展历程

接下来我们说一下计算机视觉的发展历程。
在1959年的时候,神经生理学家David Hubel和Torsten Wiesel通过猫的视觉实验,首次发现了视觉初级皮层神经元对于移动边缘刺激敏感,发现了视功能柱结构,为视觉神经研究奠定了基础——促成了计算机视觉技术40年后的突破性发展,奠定了深度学习之后的核心准则。
1965年, Lawrence Roberts《三维固体的机器感知》描述了从二维图片中推导三维信息的过程。——现代计算机视觉的前导之一,开创了理解三维场景为目的的计算机视觉研究。
70年代中期,麻省理工学院(MIT)人工智能(AI)实验室:CSAIL正式开设计算机视觉课程。
20世纪80年代《视觉》一书的问世,标志着计算机视觉成为了一门独立学科。
1999年, David Lowe 发表《基于局部尺度不变特征(SIFT特征)的物体识别》,标志着研究人员开始停止通过创建三维模型重建对象,而转向基于特征的对象识别。
2005年,由Dalal & Triggs提出来方向梯度直方图,HOG(Histogramof Oriented Gradients)应用到行人检测上。是目前计算机视觉、模式识别领域很常用的一种描述图像局部纹理的特征方法。
计算机视觉简述_第4张图片
2009年,李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,发布了ImageNet数据集,这是为了检测计算机视觉能否识别自然万物,回归机器学习,克服过拟合问题,经过三年多在筹划组建完成的一个大的数据集。ImageNet是计算机视觉发展的重要推动者,和深度学习热潮的关键推动者,将目标检测算法推向了新的高度
2012 年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 创造了一个“大型的深度卷积神经网络”,也即现在众所周知的 AlexNet,赢得了当年的 ILSVRC。这是史上第一次有模型在 ImageNet 数据集表现如此出色。论文“ImageNet Classification with Deep Convolutional Networks”,迄今被引用约 7000 次,被业内普遍视为行业最重要的论文之一,真正展示了 CNN 的优点。机器识别的错误率从25%左右。降低了百分之16%左右,跟人类相比差别不大。是自那时起,CNN 才成了家喻户晓的名字。
2014年,蒙特利尔大学提出生成对抗网络(GAN):拥有两个相互竞争的神经网络可以使机器学习得更快。一个网络尝试模仿真实数据生成假的数据,而另一个网络则试图将假数据区分出来。
2015年,何恺明等人发表了resnet,这个网络为解决梯度消失问题做出了巨大贡献,它之所以可以解决梯度消失问题从数学上说是因为对f(x)+x求到后,始终有个常数1存在,因此梯度不会消失。之后resnet作为backbone大量用于检测、属性分析等等领域。
2016年以yolo/faster rcnn/ssd 为代表的目标检测算法有了质的飞跃,yolo系列让目标检测领域达到了实时的处理效果,虽然最初版本的yolo对于小目标处理失效,但随着fpn的发明,一定程度上解决了小目标的问题。faster rcnn系列则以其鲁棒性著称。ssd更像是两者的结合。
2017年,hinton等人为了解决cnn对于全局位置不敏感的问题,发明了胶囊网络。在此之前由于cnn只对局部位置敏感,因此对于器官错位等假图片的处理是失效的。

行业大牛


2018年图灵奖颁给了ai领域的三个大牛,如上图所示。
在 1986 年的一篇论文中,Hinton 与 David Rumelhart 和 Ronald Williams 提出了反向传播,这篇论文即著名的《Learning Internal Representations by Error Propagation》。Hinton 等研究者表示反向传播算法允许神经网络探索数据内部的深层表征,因此神经网络才能解决以前被认为无法解决的问题。反向传播目前已经成为训练深度神经网络所必需的算法。
在上个世纪九十年代,Bengio 提出将神经网络与序列的概率建模相结合,例如隐马尔可夫模型这种序列的概率建模方法。这些创新观点被 AT&T/NCR 所接受,并用于阅读手写支票,该系统被认为是九十年代神经网络研究的巅峰之作,现代基于深度学习的语音识别系统都是在这些概念上继续扩展的。
20 世纪 80 年代,LeCun 构建了卷积神经网络,这是该领域的一项重要理论,对于提高深度学习效率至关重要。20 世纪 80 年代后期,LeCun 就职于多伦多大学和贝尔实验室,也是在这一时期,它利用手写数字图像训练了第一个卷积神经网络系统。如今,卷积神经网络已成为计算机视觉、语音识别、语音合成、图像合成和自然语言处理领域的行业标准。卷积神经网络有着广泛的应用,如自动驾驶、医学图像分析、语音助手和信息过滤等。

两大类任务


在这里我们把计算机视觉分为两类,第一类是内容理解类,第二类是内容生成类。内容理解类又可以包括分类、检测、关系、行为识别等等一些的方向。这类任务的目的是理解图像中的内容。还有一类是内容生成类,比如对抗生成网络所要做的风格迁移等。目前gan非常火。

state of the art

计算机视觉简述_第5张图片
计算机视觉简述_第6张图片
计算机视觉简述_第7张图片
计算机视觉简述_第8张图片
上图是分类、目标检测、行为识别和生成的最佳方法
参考:计算机视觉发展史
一文看懂计算机视觉

你可能感兴趣的:(深度学习相关(cs231n),计算机视觉,神经网络,人工智能,深度学习)