深度学习介绍(二)背景

卷积神经网络背景
LeCun的LeNets深度学习网络可以被广泛应用在全球的ATM机和银行之中,它可以理解支票上写的是什么。但仍然存在很多质疑,LeCun说道,“不知何故,似乎现在还是无法说服计算机视觉领域圈子,他们仍然觉得卷积神经网络没什么价值。”其中部分原因,可能是因为这项技术虽然强大,但是没有人可以理解它为什么如此强大,而且这项技术的内部工作方式仍然是个谜。因此,为了让大家能够更清楚的了解一些卷积神经网络内部的工作方式,我们先来介绍一些比较轻松的卷积神经网络发展的背景知识。
神经网络,顾名思义,是模仿人的大脑的工作方式来进行建模的一种数学模型。因此它的发展也或多或少的受到脑科学研究的启发。
一个实验
1958 年,David Hubel 和Torsten Wiesel 在研究瞳孔区域与大脑皮层神经元的对应关系时,做了个实验。他们在猫的后脑头骨上,开了一个3 毫米的小洞,向洞里插入电极,测量神经元的活跃程度。然后,他们在小猫的眼前,展现各种形状、各种亮度的物体。并且,在展现每一件物体时,还改变物体放置的位置和角度。他们期望通过这个办法,让小猫瞳孔感受不同类型、不同强弱的刺激。
之所以做这个试验,目的是去证明一个猜测。位于后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。一旦瞳孔受到某一种刺激,后脑皮层的某一部分神经元就会活跃。经历了很多天反复的枯燥的试验,同时牺牲了若干只可怜的小猫,David Hubel 和Torsten Wiesel 发现了一种被称为“方向选择性细胞(Orientation Selective Cell)”的神经元细胞。当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃。(他们两个也因为这个发现获得了1981 年的诺贝尔医学奖。而这个生理学的发现,也促成了计算机人工智能,在四十年后的突破性发展。)
这个发现激发了人们对于神经系统的进一步思考。
神经-中枢-大脑的工作过程,或许是一个不断迭代、不断抽象的过程。这里的关键词有两个,一个是抽象,一个是迭代。从原始信号,做低级抽象,逐渐向高级抽象迭代。人类的逻辑思维,经常使用高度抽象的概念。
例如,从原始信号摄入开始(瞳孔摄入像素 Pixels),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定,眼前的物体的形状,是圆形的),然后进一步抽象(大脑进一步判定该物体是只气球)。
比如下面的摩托车,从像素级别,根本得不到任何信息,因此无法进行摩托车和非摩托车的区分。而如果特征是一个具有结构性(或者说有含义)的特征的时候,比如是否具有车把手(handle),是否具有车轮(wheel),就很容易把摩托车和非摩托车区分,这时学习算法才能发挥作用。

复杂图形,往往由一些基本结构组成。比如下图:一个图可以通过用64种正交的edges basic(可以理解成正交的基本结构)来线性表示。比如样例的x可以用1-64个edges中的三个按照0.8,0.3,0.5的权重调和而成。而其他基本edge没有贡献,因此均为0 。
深度学习介绍(二)背景_第1张图片
这里写图片描述
另外,研究人员还发现,不仅图像存在这个规律,声音也存在。他们从未标注的声音中发现了20种基本的声音结构,其余的声音可以由这20种基本结构合成。
深度学习介绍(二)背景_第2张图片
深度学习介绍(二)背景_第3张图片
直观上说,就是找到有意义的edge basis再将其进行线性组合,就得到了上一层的特征,递归地向上学习特征。
另一个重要的发现是,在不同的物体上进行训练时,所得的edge basis 是非常相似的(虽然物体和模型完全不同)这样,我们要分辨出各种物体就容易多了。
深度学习介绍(二)背景_第4张图片
虽然Faces、Cars、Elephants和Chairs彼此之间相差很大,但是从这些物体中学到的edge basis却是基本相同的(最下面一层),这样,我们利用计算机在分辨各个物体时,只需要训练得到各个物体对应的权重就行了,一组权重对应一类物体。
从文本方面来说,我们要描述一件事情,用什么来表示比较合适?用一个一个字吗?相对于图像来说,字就是像素级别的了,单个字不足以说明我们想要描述的事儿,起码用一个一个句子吧,句子的表达能力好多了,但可能也不够,那就再进一步用一段文字来描述,还不行的话就再进一步,用一篇文章来表述,或者继续上升用多篇文章来描述。这样经过层层迭代就会抽象出我们需要的知识。
一个人在看一篇文章的时候,眼睛看到的是word,由这些word在大脑里自动切词形成term,在按照概念组织的方式,先验的学习,得到topic,然后再进行高层次的learning。

你可能感兴趣的:(卷积神经网络,deep-learning,LeCun,LeNets,edge-basis)