深度学习概论:为什么深度学习会兴起?

主要介绍吴恩达《深度学习》课程中《神经网络和深度学习》第一周:深度学习概论中的“为什么深度学习会兴起?”一节里的内容。

为什么深度学习会兴起?

深度学习和神经网络背后的基本技术理念已经有好几十年了,为什么现在才突然流行起来呢?

下面这张图很好的介绍了深度学习和神经网络的效果
深度学习概论:为什么深度学习会兴起?_第1张图片
横轴代表完成任务的数据数量,纵轴代表机器学习算法的性能,比如垃圾邮件过滤的准确率,广告点击预测的准确率,用于无人驾驶中判断其他车辆位置的神经网络准确率。把传统机器学习算法的表现,比如支持向量机或 logistic 回归作为数据量的一个函数,那可能得到最下面那个曲线,它的性能一开始增加数据时会上升,但一段时间之后,它的性能进入平台期(but after a while the performance you know pretty much plateaus right), 假设横轴很长很长,那是因为这些模型无法处理海量数据。过去20年,在我们的社会中,我们遇到很多问题,早期只有相对较少的数据量,比如横轴第一个箭头的位置,进入数字化社会后,现在收集海量数据很容易就到横轴的第二个或第三个箭头的位置。过去20年,很多应用中,我们收集到了大量的数据,远超过传统学习算法能发挥作用的规模。

神经网络模型的话,如果你训练一个小型的神经网络,那么性能很可能会像倒数第二个黄色曲线那样,训练一个稍微大一点的神经网络,一个中等规模的神经网络性能表现也会更好一些,训练一个非常大的神经网络,性能就会是第一条绿色曲线那样,还会越来越好。需要注意两点,一点是如果想达到这么高的性能水平,有两个条件,第一个是需要训练一个规模足够大的神经网络以发挥数据规模量巨大的优点,另外要到 x 轴的这个位置需要很多的数据,因此我们经常说,规模一直在推动深度学习的进步,说到“规模”,指的不仅是神经网络的规模,我们需要一个有许多隐藏单元的神经网络,有许多的参数,许多的连接,而且还有数据“规模”。

事实上,要在神经网络上获得更好的表现,在今天最可靠的手段,往往就是,要么训练一个更大的神经网络,要么投入更多的数据,这只能在一定程度上起作用,因为最终你耗尽了数据或者最终你的网络规模太大,需要的训练时间太长,但提升规模已经让我们在深度学习的世界中获得了大量的进展。

从技术上说,这些数据都是代标签的数据量,带标签的数据,在训练样本时有输入 x 和标签 y。

影响深度学习的三个方面

在深度学习崛起的初期,是数据(Data)和计算能力(Computation)规模的进展,但最近几年,我们也见证了算法(Algorithms)方面的极大创新,许多算法方面的创新,都为了让神经网络运行得更快。举一个例子,神经网络方面一个巨大突破是从 sigmoid 函数转换到 ReLU 函数,使用 sigmoid 函数时,机器学习问题是在两端的斜率几乎为 0,所以学习会变得非常缓慢,而通过改变激活函数,神经网络用 ReLU 函数,能使得“梯度下降法”运行得更快。

本文为“吴恩达《深度学习》笔记”系列文章之一,
更多文章:吴恩达《深度学习》笔记:http://blog.csdn.net/u012318074/article/category/7142959

你可能感兴趣的:(吴恩达《深度学习》笔记)