论战Yann LeCun:谁能解释极限学习机(ELM)牛X在哪里?

论战Yann LeCun:谁能解释极限学习机(ELM)牛X在哪里?

Yann LeCun、黄广斌、David_Wang2015
转载自http://www.csdn.net/article/2015-05-07/2824636

  被认为学习速度快、泛化性能好的Extreme Learning Machine(ELM,极限学习机),在国内颇有市场,但大神Yann LeCun近日质疑ELM存在命名、方法论等方面存在很多问题,不如采用SVM或者RBF,随即有人反驳称ELM理论上与一般的前馈神经网不分伯仲,ELM的发明者则认为,ELM和深度学习是相辅相成的,有些应用将两者结合收到很好的结果,并且ELM可以填补CNN的理论空白。现在双方观点整理如下,供读者参考。

论战Yann LeCun:谁能解释极限学习机(ELM)牛X在哪里?_第1张图片

 

  南洋理工大学黄广斌副教授(@黄广斌-ELM)在2004年提出的Extreme Learning Machine(ELM,极限学习机),是一种单隐层前馈神经网络(SLFN)学习算法。这种算法只需要设置网络的隐层节点个数,执行过程中不需要调整网络的输入权值以及隐元的偏置,并且产生唯一的最优解,因而学习速度快且泛化性能好。

  然而,Facebook人工智能实验室负责人、纽约大学教授Yann LeCun近日在Facebook上对ELM提出了质疑,认为ELM存在命名、方法论等方面存在很多问题,有一定的优点但不如首先采用SVM(支持向量机)或者RBF,也难以应对ImageNet 或语音识别这样的复杂任务。

  Yann LeCun认为:首先,ELM和早前出现的Gamba Perceptron、Rosenblatt perceptron看来有极深的渊源。其次,随机连接第一层的方法几乎是最傻的事情,基本上可谓否定近60年的努力的开倒车的行为(Perceptron已可解决线性不可分问题)。他表示,随机初始化输入权重和偏置,做好了也只能对简单函数和小型标记数据集有效,还不如采用SVM或者RBF。

  First, the name: an ELM is *exactly* what Minsky & Papert call a Gamba Perceptron (a Perceptron whose first layer is a bunch of linear threshold units). The original 1958 Rosenblatt perceptron was an ELM in that the first layer was randomly connected.

  Second, the method: connecting the first layer randomly is just about the stupidest thing you could do. People have spent the almost 60 years since the Perceptron to come up with better schemes to non-linearly expand the dimension of an input vector so as to make the data more separable (many of which are documented in the 1974 edition of Duda & Hart).

  Yann LeCun的观点获得了200多个赞和大量的回复。一些回复表示看好ELM的速度,然而Yann LeCun反驳:ELM的运行必然慢于RBF网络,后者第一层采用K均值或者GMM甚至神经网络来训练,所有的这些模型优化了一层单元的数量和位置,从而可以消除一些数据量的影响。传统的SVM用于大型数据集缓慢,人们都有很多建议方法绕过该问题。如果指的是训练速度,只要训练时间不是太离谱,则无人在意。

  They have to be slower to run than an RBF net in which the first layer is trained with K-means or GMM, or even neural nets, since all of these models optimize the number and placement of layer-1 units, and can therefore get away with a small number of them. Regular SVMs get slow with very large datasets, but people have suggested ways to get around that. Perhaps they are talking about training speed, but no one is really interested in that, as long as the training time is not outrageous.

  对于一封发给IEEE SMC的匿名邮件《The ELM Scandal》(其中列举多项条款指责ELM涉嫌存在学术问题),Yann LeCun甚至称,“ELM is officially a fraud”。

  在国内,微博网友@David_Wang2015发表博文《Extreme Learning Machine(ELM)的工程哲学》,赞同ELM的工程意义,作为对Yann LeCun的回应。

  @David_Wang2015认为:目前的单隐层ELM在函数逼近论和统计学习理论意义下的收敛结果已经有证明,理论上与一般的前馈神经网不分伯仲。不过,前馈神经网适合工程应用的函数模型还得靠工程师的理解和洞察,ELM如果要在各种应用中更上一层,合理的结构设计和隐节点的生成方式的研究是必不可少的。

  一些圈内人士评论认为,尽管ELM思想上工程上确有意义,但后文从哲学方法层面回应,未能落到实处,仍然无法回答Yann LeCun的质疑。

  @David_Wang2015在此之后解释:

  这篇文章主要是介绍一下ELM的主要思想,说明ELM为什么在某些应用中可以又快又work,解决一些关于ELM的疑惑。彻底回答LeCun的质疑还得需要更深入的理论和工程的研究,在知名数据集和工程应用上刷刷performance。

  作为ELM的发明者,黄广斌亦提出了自己的观点:ELM和深度学习是相辅相成的,如可将CNN用于特征提取,ELM用于做分类器,此外ELM还可以填补CNN的理论空白。

  ELM的发展也是从不信到怀疑,到似曾相识,到大彻大悟的过程。ELM和深度学习是相辅相成的,有些应用将两者结合收到很好的结果,比如将CNN用于特征提取,ELM用于做分类器。其实从长远角度看,更多的是ELM和Deep Learning的交融汇合(Convergence)。另一方面Convolution Neural Network (CNN)虽然有生物学上的相关意义,数学理论上的证明还不多,ELM理论正好填补这个空白,并且推向更广泛的Local Receptive Fiekds概念。

  黄广斌表示,神经网络的发展是曲折前进的历史,如多层感知器(Perceptron)、Back-Propagation(BP)算法、SVM甚至深度学习,都曾经历了不被理解的过程——理解和认识有时需要一个漫长的过程。

你可能感兴趣的:(论战Yann LeCun:谁能解释极限学习机(ELM)牛X在哪里?)