Google为TensorFlow设计的专用集成电路TPU3.0图片

Google为TensorFlow设计的专用集成电路TPU3.0图片_第1张图片

  • Widrow也是在Minsky的影响下进入AI领域的,后来加入斯坦福大学任教。他在1960年提出了自适应线性单元(Adaline),一种和感知器类似的单层神经网络,用求导数方法来调整权重,所以说有“三十年神经网络经验”并不为过。不过当时他认为神经网络乃至整个人工智能领域风险有点高,于是他转向了更稳妥的自适应滤波自适应模式识别研究。

  • 当领域进入低谷,研究人员换了个名字继续进行研究。甚至1986年神经网络复兴的时候,Rumelhart编的那本论文集并没有叫“神经网络”,而是“并行分布式处理”(Parallel Distributed Processing)这个低调的名字。

  • 当领域进入高潮,那些潜伏的研究再次回归本宗——当然,很多原本不在其中的方法也会来“搭便车”。例如,支持向量机(SVM)方法虽然在20世纪60年代就有了,在20世纪90年代复兴的时候,采用的名字却是“Support Vector Network”,以神经网络的面貌出现,直到神经网络进入低谷才把“Network”去掉。

异或问题本质上是线性不可分问题。为了解决这个问题,在网络里引入非线性,以及将这些非线性函数组合的参数化学习方法(BP算法等)。但是这样复杂的高维非线性模型,在计算上遇到了很多挑战,基本上都是和链式求导的梯度算法相关的。

  • 维度灾难的另一个后果是泛化问题。比如训练一个手写数字识别器,稍微变化一下图像可能就识别不了了。这个问题的原因是误差求导是在一个高维空间里,目标函数是一个多“峰值”和“谷底”的非线性函数,这就导致了梯度下降迭代终点(“吸引子”)往往不一定是希望找到的结果(全局最优解)。甚至,有些迭代终点根本不是任何目标模式,称为“伪模式”或者“伪状态”。

科学有对错

Hinton在2015年的一个教程里也总结了基于BP的前馈网络的问题。

(1)数据:带标签的数据集很小,只有现在(2015)的千分之一。

(2)算力:计算性能很低,只有现在(2015)的百万分之一

(3)算法:权重的初始化方式和非线性模型错误

  • 回到1995年,那时大家并没有Hinton在20年后的这些洞见,但是也能意识到神经网络的这些问题很难解决。再一次,“极高的期待导致极度的怀疑”,未能兑现的承诺导致了资金的快速撤离和学术热情的大幅下降。几乎所有的神经网络公司都关门了——至少有300家AI公司,包括Minsky的Thinking Machines(1994)也关门了。

Google为TensorFlow设计的专用集成电路TPU3.0图片_第2张图片

  • SVM以牺牲了一点表达力灵活性(通常核函数不是任意的)为代价,换来了实践上的诸多方便。而神经网络在之后的17年里,逐渐从“主流”学术界消失了,直到跌到了“鄙视链”的最下面。据说Hinton从20世纪90年代到2006年大部分投稿都被会议拒掉,因为数学(相比统计机器学习)看起来不够“fancy”(新潮)。

20世纪90年代中期到2010年左右在整体上被认为是第二个AI冬天,神经网络无疑是其中最冷的一个分支。值得一提的是,这段时间内互联网兴起,连带导致机器学习方法和语义网方法的兴起,算是这个寒冬里两个小的局部春天。不过在这个神经网络“潜龙勿用”的第二个蛰伏期,有些学者依然顽强坚持着,转机又在慢慢酝酿。
Google为TensorFlow设计的专用集成电路TPU3.0图片_第3张图片

内容原创自知乎:漫谈人工智能(人民邮电出版社)

你可能感兴趣的:(DL-first,tensorflow,机器学习,人工智能)