模式识别机器学习的发展方向

  姓名:刘璇光  学号:15020150039

  转载自: 知乎https://www.zhihu.com/question/21644900/answer/19079389 ,有删节

【嵌牛导读】:模式识别机器学习的一些心得体会

【嵌牛鼻子】:模式识别 机器学习  深度学习

【嵌牛提问】模式识别机器学习的发展方向?

【嵌牛正文】:

有几个方向值得去关注:

1. Deep learning (深度学习), 这是近年来最火的研究方向,但是个old idea, 其实就是基于神经网络. 之所以以前没有受到太多得关注(至少比现在)是因为计算量太大,当时的硬件难以去处理那么多的计算量。 但随着硬件和算法上的突破, 近年来迅速成为了业界最热的研究方向。目前已经应用到了语音识别,图像识别,自然语言处理等领域。 当然,让它受到这么多的关注主要原因还是它的准确率,尤其是在图像识别和语音识别上取得了很大的突破。从Intution的角度来看,机器学习的本质就是为了去学习能够把数据(observation)有效地解释的函数(Function),  而且恰好深度结构的神经网络可以表示出(capture)非常复杂的数据之间的关系(function).  另外,深度学习最大的好处就是无监督学习(unsupervised learning),  可以直接用它来学习数据的特征。 虽然深度学习取得了很大的成就,但仍然处于刚刚起步阶段。有很多的问题值得去研究:

自然语言处理上的应用,尤其是机器翻译(Machine Translation). 这个估计是下一个深度学习上重大(?)的突破,很多学者都在从事这方面的研究。

大规模学习。 这个一直是深度学习领域重要的分支。 有效地,快速的,正确地学习深度模型 是非常具有挑战性的。

深度学习在其他模型上的应用。比如去年的Deep Gaussian Process就是比较好的例子。

深度学习在time series(不仅仅是语音识别)上的应用。目前很少有论文在这个领域。HongLak Lee有几篇论文值得去看。

其他的应用 

但是,有些人还是对深度学习表示比较悲观,觉得深度学习不能解决机器学习最为fundamental的问题。 我们要知道,机器学习以前也有过kernel时代。

2. 大规模学习(Large Scale Learning). 现在是大数据时代, TB, PB级别的数据到处可见。然而训练机器学习算法是非常expensive的。 有几个主要的方向是:

Stochastic method.  这种方法适用于online learning,  每次只把一部分数据load到内存中,然后去update模型。这种方法的好处是可以有效地处理大数据。在这个领域,first order(gradient method)和second order(newton's method)算是主流的优化方法,最近几年很多论文都是在讨论这些方法和改进。

并行/分布式处理(Parallel/Distributed).  用并行和分布式的方式去提高学习速度。经典的例子就是用这种方法去提高深度模型的学习速度。 还有很多较复杂的算法值得去研究。 想研究这些问题,需要一些系统方面的技能。

搭建分布式平台。 Hadoop当然是目前的主流,但它并不是最合理的方法。 比如很多复杂的算法,无法再Hadoop上有效地运行。 后来Carlos Guestrin的实验室做出来的Graphlab算是个比较出色的框架。 在这个领域,很多还是open questions.

3. Graphical Models, Bayesian Methods。 这个领域也是随着硬件的发展而迅速崛起的领域。 每年都有很多论文在讨论各种图模型(Graphical Models)。 目前还是很多人在做有关Bayesian Network, Markov Random Fields的研究。 至于Bayesian,它也是非常有效地方法。最主要的应用还是在防止overfitting. 它不同于ML,MAP估计,Bayesian可以考虑到所有的参数空间(parameter space), 相当于做regularization. LDA是最为经典的例子,很多很多的论文建立在LDA模型之上(不得不承认,很多都在灌水).  有些有意思的方向:

对于给定的应用,提出合理的图模型。除了计算机领域,其他一些领域比如生物学,心理学,金融学,都可以用到图模型来解决一些数据上的问题。

大规模学习Bayesian Models.  主要有两个子分支,一个是MCMC,另一个是Variational Bayes.  特别是mini-batch MCMC和Stochastic variational Bayes是比较火的领域。可以试图用这些方法去解决已有的比较复杂的贝叶斯模型。值得研究的一个open problem是怎么去并行化这些优化算法。

很多Bayesian方法都在讨论Conjugate prior, 怎么有效地去学习non-conjugate模型也是值得去研究的问题。

4. Learning Theory.  它的重点是PAC learning.  核心问题是: 我们需要多少数据,才能够学习出来的模型可靠(reliable).  这些理论方面的论文可以去SODA, COLT这种会议去搜索。

5. 如果喜欢应用领域,可以考虑一下几种应用

推荐系统(Recommender System). 这算是机器学习领域里最为成功的应用。但是还是有很多东西值得去研究。 推荐系统最重要的问题是cold start 问题,就是去解决新用户,新商品的问题。还有怎么把heterogeneous的信息有效地结合在模型本身上一直是个open problem. 在推荐系统问题上,最常见的方法是matrix factorization, 它的各种提高版本出现在今年来很多论文上。 

文本挖掘。 很多经典的问题,比如opinion mining, text summarization, information retrieval..etc)

Display Advertisement.  就是投放广告上的应用。 要知道,GOOGLE,BAIDU大部分的钱是来自于广告上的收入。核心问题就是去解决: 合理的选择广告,提高用户点击率。

社交网络分析。 比如 spam detection, geo-location analysis,  social influence analysis, causal analysis, link prediction, recommendation using social network information,  study of evaluation of social dynamics.  etc... 可以去看看CIKM和SIGIR这些会议的文章。

金融上的应用。 预测价格,预测financial event.  Google trends analysis, etc.

E-commerce上的应用: fraud transaction detection, 等等。

系统上的应用: Power consumption analysis,  系统bug的检测(用一些causal analysis)

除此之外,机器学习在航空航天(比如NASA), 军事上都有一些身影。

你可能感兴趣的:(模式识别机器学习的发展方向)