机器学习40讲-学习笔记

一 序

本文属于极客时间机器学习40讲学习笔记系列。

学习目标:把握不同模型之间的内在关联,形成观察机器学习的宏观视角,找准进一步理解与创新的方向。

01 频率视角下的机器学习

 之前的“基础课”中老师曾提到,“概率”(probability)这个基本概念存在着两种解读方式,它们分别对应着概率的频率学派(Frequentist)和贝叶斯学派(Bayesian)。

理解这些背景知识,有助于从不同的角度理解机器学习的各种算法。

  总结下:

  • 频率学派认为概率是随机事件发生频率的极限值;

  • 频率学派执行参数估计时,视参数为确定取值,视数据为随机变量;

  • 频率学派主要使用最大似然估计法,让数据在给定参数下的似然概率最大化;

  • 频率学派对应机器学习中的统计学习,以经验风险最小化作为模型选择的准则。

机器学习40讲-学习笔记_第1张图片

如何在实际问题中应用频率主义的统计学呢,练习题:

    Alice 和 Bob 在进行一场赌局,先得到 6 分者获胜。判断得分的方式有一些特别:在赌局开始之前,荷官在赌桌上扔一个小球,在这个球停止的位置做个标记。显然,这个标记的位置是随机的。赌局开始后,荷官继续扔球,如果球停到标记的左侧,则 Alice 得分;反之停到标记右侧,则 Bob 得分,这就是赌局的计分规则。那么问题来了:在这样的规则下,Alice 现在以 5:3 领先 Bob,那么 Bob 反败为胜的概率是多大呢?

   按照频率主义的观点,每一场赌局的概率可以通过已有的得分结果来估计,就是Alice \frac{5}{5+3},Bob胜率:\frac{3}{5+3},Bob要连赢三局才能反败为胜,也就是\frac{3}{8}*\frac{3}{8}*\frac{3}{8}

02 贝叶斯视角下的机器学习

  贝叶斯学派给出了一种更加通用的概率定义:概率表示的是客观上事件的可信程度(degree of belief),也可以说成是主观上主体对事件的信任程度,它是建立在对事件的已有知识基础上的。

除了对概率的置信度解释之外,贝叶斯学派中的另一个核心内容是贝叶斯定理(Bayes' theorem),用来解决“逆向概率问题”(inverse probability problem)。

   P(H|D)=\frac{ P(D|H)P(H) }{ P( D)}

P(H) 被称为先验概率(prior probability),P(D|H) 被称为似然概率(likelihood probability);P(H|D) 被称为后验概率(posterior probability)。

  所谓先验概率是指根据以往经验和分析得到的概率,可以视为假设 H 初始的可信程度;与假设 H 相关的数据 D 会作为证据出现,将数据纳入考虑范围后,假设 H 的可信程度要么会增强要么会削弱。但不管增强还是削弱,得到的结果都是经过数据验证的假设的可信程度,这就是后验概率。

贝叶斯定理的意义正是在于将先验概率和后验概率关联起来,刻画了数据对于知识和信念的影响。

应用到统计学:它将待估计的参数视为随机变量,用来估计的数据反过来是确定的常数,讨论观测数据的概率分布才是没有意义的。贝叶斯统计的任务就是根据这些确定的观测数据反过来推断未知参数的概率分布。

后验概率正比于先验概率和似然概率的乘积,这意味着后验概率实质上就是用先验概率对似然概率做了个加权处理。即使包含某些主观判断,先验信息也是贝叶斯主义中不可或缺的核心要素。

再看上一节的例子,在贝叶斯学派看来,处理未知参数 pp 的方式不应该是武断地把它看成一个常数,而是应该从变量的角度去观察,考虑它在 [0, 1] 上所有可能的取值,再计算在所有可能的取值下 Bob 获胜概率的数学期望,从而消除 pp 的不确定性对结果的影响。

Bob 获胜的概率就可以写成

 

E=\int_{0}^{1}(1-p)^3P(p|A=5,B=3)dp

下面的计算过程没看懂。

机器学习40讲-学习笔记_第2张图片

贝叶斯学习的输出不是简单的最优估计值\hat{\theta},而是关于参数的概率分布 p(θ),从而给出了更加完整的信息。在预测问题中,贝叶斯学习给出的也不仅仅是一个可能性最大的结果,而是将所有结果及其概率以概率分布的形式完整地呈现出来。

  • 贝叶斯学派认为概率是事件的可信程度或主体对事件的信任程度;

  • 贝叶斯学派执行参数估计时,视参数为随机变量,视数据为确定取值;

  • 贝叶斯学派主要使用最大后验概率法,让参数在先验信息和给定数据下的后验概率最大化;

  • 贝叶斯学派对应机器学习中的概率图模型,可以在模型预测和选择中提供更加完整的信息。

机器学习40讲-学习笔记_第3张图片

课后的问答也值得的一看:

贝叶斯和频率就是两种不同的思路,频率的思路是由因及果,贝叶斯在此基础上进一步由果溯因,因为在频率学派里是没有先验后验的概念的。

贝叶斯的计算量就是来源于对积分的计算。

你可能感兴趣的:(NLP,机器学习)