Edward系列(三)

去年底NIPS会议上,Edward的作者David Blei 介绍了变分推断(Variational Inference)。

Edward系列(三)_第1张图片
David Blei 说这份PPT他们准备了七个半小时

变分推断是一种近似推断方法。它是干什么的呢?

Edward系列(三)_第2张图片
大致意思:1、个性化数据分析的市场还是很大的;2、数据应用的流程是假设、计算、应用;3、解决问题的方案得简单高效

变分推断就是用来做计算的。首先是专家(上图那个白头发老爷爷)会对业务问题进行一些假设,然后根据假设收集数据,接着用变分推断这个技术,基于数据和假设,获得业务问题内在的一些逻辑关系,最终这些通过计算得到的知识,转化为我们解决问题的工具(例如:模型)。

当然这个过程也可以是闭环的,就是对应用上产生的误差进行分析,修正业务假设。

Edward系列(三)_第3张图片
修正业务假设

David Blei 用话题模型解释了变分推断的能力。话题模型是指根据若干文档提取主题分布。简单说就是,有一大堆文章,想个办法,把每篇文章的主题讲出来,用人一篇一篇读,然后总结出来也是可以的,但是效率低。用David Blei发明的LDA方法,就可以让电脑自己去学习,自动提取每篇文章的主题。

Edward系列(三)_第4张图片
除了文章可以看到,其他一切都是未知的,如果有一百万篇文章,大概有几十亿未知变量

David Blei从纽约时报一百八十万篇文章中,提取了15个主题,例如第一个主题是关于体育的。

Edward系列(三)_第5张图片
如果靠人整理,估计得猴年马月了

David Blei也提到了他们使用随机变分推断(Stochastic  Variational Inference)解决大数据推断问题。例如纽约时报一百八十万篇文章的主题提取是用笔记本电脑完成的。

Edward系列(三)_第6张图片
180万文章用笔记本电脑完成分析,比较惊人吧

关于“业务假设”,要多说几句。如果用概率图模型,盘式记法是有助于我们理解“业务假设”的。例如,下图是关于一家电影发片商如何给9家广告平台支付费用(因为每名消费者并不是看到一家广告平台的电影广告就花钱买票的,如何评估每家广告公司的贡献是一个问题)的假设模型。

Edward系列(三)_第7张图片
其实还是挺复杂的,既包括了人口的静态属性(性别、婚姻状态),也包括一些动态属性(摘自Stancon-talks 03_lei  2017)

我还是挺赞同贝叶斯这些做法的。现有一些机器学习算法,决策树、神经网络等,很多人不考虑业务层面的实际要求,以为有数据就能建模,但模型能不能解决问题就不管了,这点不好。

昨天下午两个人都批评这个现象。一位是技术群的朋友(祝他生日快乐!),另一位是一家公司的业务老总(做了20多年金融业务的白头发老爷爷)。

你可能感兴趣的:(Edward系列(三))