CCF ADL70:机器学习前沿

Preface

这个月的 20~22 号,我参加了中国计算机协会举办的《机器学习前沿》讲习班。开会地点是在广州的广东外语外贸大学,地处广州白云山的山脚下,环境挺美的。

三天里,共有 5 位讲者在大会上分享他所研究领域的前沿。

  • 第一个分享者是清华大学的 朱军 老师,讲的是贝叶斯学习前沿;
  • 第二个分享者是香港科技大学的 James Kwok 老师,讲的是统计学习前沿;
  • 第三个分享者是华为若亚方舟实验室的 吕正东 研究员,讲的是深度学习前沿 — 自然语言理解;
  • 第四个分享者是南京大学 LAMDA 实验室的 俞扬 老师,讲的是强化学习前沿;
  • 第五个分享者是香港科技大学的 杨强 老师,讲的是迁移学习前沿。

在我听的过程中,更加感受到了每个学校、公司,及其学者的风格的差异。
朱军老师、俞扬老师很符合清华、南大的务实、踏实;
杨强、James Kowk 教授则是高瞻远瞩,研究的真的是前沿中的前沿。周志华 老师在总结 James Kowk 教授的演讲时,也说「真是学到了不少」;
倒是工业界的吕正东研究员,不知道是不是因为公司的保密规则,个人觉得讲的太虚了,不踏实。个人没感觉学到什么太多的东西,而且,演讲时有点「装」(对,我就是这么直)。

上两张本会的两位主持人的近照(我坐第一排^_^),南京大学的 周志华 老师,以及北京交通大学的于剑老师:



下面我详细的总结一下每位老师在这中间的分享,以及我的收获。

贝叶斯学习前沿

先上朱军老师的近照镇楼:

朱军老师的分享分为三个部分:

  • 贝叶斯的基础理论、典型的模型与算法(Basic theory, models, and algorithms)

  • 可扩展的贝叶斯算法(Scalable Bayesian methods),即大数据的情境下,我们怎么做快速的贝叶斯方法。包括 online learning(在线学习),distributed MCMC(分布式的蒙特卡洛方法)

  • 深度产生式模型(Deep generative models),即集合目前很火的深度学习,从贝叶斯的角度怎么来看这个问题;我们怎么去做比较鲁棒的深度学习模型,重点在深度产生式模型的一些进展。

贝叶斯的基础理论、模型与算法

贝叶斯方法的核心便是大名鼎鼎的 Bayes rule(贝叶斯准则或贝叶斯定理)

p(θ|D)=p(D|θ)π(θ)p(D)

其中:

  • θ 表示 模型(参数向量)
  • p(θ|D) posterior(后验概率)
  • π(θ) prior(先验概率、先验分布),看到数据之前,对这个模型分布的刻画;
  • p(D|θ) likelihood model(似然模型、似然函数),用来描述我们的数据的,给定特定的 θ 后, 产生数据的可能性。
  • p(D) 中的 D 为数据集,故此项为 常数

因为我们关心的是机器学习里面的问题,机器学习中我们要做一些预测(prediction),将贝叶斯规则用到机器学习中:

p(x|D,M)=p(x|θ,D,M)p(θ|D)dθ


可扩展的贝叶斯算法


深度生成模型


统计学习前沿

这部分是由香港科技大学的 James Kwok(郭天佑)教授讲授的,内容非常前沿。James 老师讲的也快也深,底下的我们是听的一脸瞢逼。
课间,周志华老师上台给我们说:「用中文听到这么前沿的讲座的机会几乎没有,James 讲的非常前沿,可能你们不是很懂,我给你们科普一下刚刚 James 老师讲的啥……」哈哈哈,当场把我们笑死了……

James 老师从 Big Data 开始讲起:

CCF ADL70:机器学习前沿_第1张图片

我们每天都在产生大量的数据,Big Data 的几个如下特征:

  • Volume
  • Variety
  • Velocity:
    我们的数据是很快很快产生的,传统的 Machine Learning 考虑的是 Batch Learning,即来了一大块的数据,处理一下,处理完了。但现在流行的是 Online Learning,不停地 update 这个 model。

CCF ADL70:机器学习前沿_第2张图片

一句话来概括机器学习的影响:

“Machine learning is eating the world”

CCF ADL70:机器学习前沿_第3张图片

这次的 talk 讨论的是 Volume,怎么处理大量的、高维的数据。直接处理高维的特征数据,不光没必要,而且由于 model 中的变量很多,造成 overfitting。

CCF ADL70:机器学习前沿_第4张图片

下面来看 Supervised Learning,在监督学习中,处理手段一般都是 regularized risk minimization
minimize 两个东西:

  • loss:有了数据、model,我们的数据经过 model 后与标签的 consistency 到底有多大。
  • regularizer:给 model 不同的 constraint

CCF ADL70:机器学习前沿_第5张图片



CSDN点击写新文章的有时候,有时候会显示之前文章的编辑界面,然后就非常容易不小心把文章给删除了……也是醉了……

心累,发生过好几次了,我也没留 Markdown 的备份,这块有空重新补上吧……


Postscripts

先附上以上几个人的 PPT 吧,有空再补充梳理。

CCF ADL70:机器学习前沿_第6张图片

1. 腾讯微云链接
2. 百度云链接

你可能感兴趣的:(Machine,Learning)