模式识别与机器学习笔记2018.8.21

模式识别与机器学习笔记2018.8.21_第1张图片

贝叶斯定理

例子,我们要选择的盒子的颜色是一个随机变量,记作 B 。这个随机变量可以取两个值中的一个,即 r (对应红盒)或 b (对应蓝盒)。类似地,水果的种类也是一个随机变量,记作 F 。它可以取 a (苹果)或者 o (橘子)

如果在我们知道水果的种类之前,有人问我们哪个盒子被选中,那么我们能够得到的最多的信息就是概率 p(B) 。我们把这个叫做先验概率(prior probability),因为它是在我们观察到水果种类之前就能够得到的概率。一旦我们知道水果是橘子,我们就能够使用贝叶斯定理来计算概率 p(B | F) 。这个被称为后验概率( posterior probability )

在这个例子中,选择红盒的先验概
率是4/10 ,所以与红盒相比,我们更有可能选择蓝盒。一旦我们观察到选择的水果是橘子,我们发现红盒的后验概率则是 2/3 ,因此现在实际上更可能选择的是红盒。这个结果与我们的直觉相符,因为红盒中橘子的数量比蓝盒的多,因此观察到结果是橘子这件事提供给我们更强的证据来选择红盒。事实上,这个证据相当强,已经超过了先验的假设,使得红盒被选择的可能性大于蓝盒。

目前为止,我们根据随机重复事件的频率来考察概率。我们把这个叫做经典的或者频率学家的关于概率的观点。现在我们转向更加通用的贝叶斯( Bayesian )观点。这种观点中,频率提供了不确定性的一个定量化描述。

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------

在水果盒子的例子中,水果种类的观察提供了相关的信息,改变了选择了红盒的概率。在那个例子中,贝叶斯定理通过将观察到的数据融合,来把先验概率转化为后验概率。正如我们将看到的,在我们对数量(例如多项式曲线拟合例子中的参数 w )进行推断时,我们可以采用一个类似的方法。在观察到数据之前,我们有一些关于参数 w 的假设,这以先验概率 p(w) 的形式给出。观测数据 D = {t 1 ,...,t N } 的效果可以通过条件概率 p(D | w) 表达,我们将在1.2.5节看到这个如何被显式地表达出来。贝叶斯定理的形式为

贝叶斯定理右侧的量 p(D | w) 由观测数据集 D 来估计,可以被看成参数向量 w 的函数,被称为似然函数( likelihood function )。它表达了在不同的参数向量 w 下,观测数据出现的可能性的大小。注意,似然函数不是 w 的概率分布,并且它关于 w 的积分并不(一定)等于1

模式识别与机器学习笔记2018.8.21_第2张图片

模式识别与机器学习笔记2018.8.21_第3张图片

 

高斯分布

 D 维向量 x 的高斯分布

其中 D 维向量 µ 被称为均值, D × D 的矩阵 Σ 被称为协方差, |Σ| 表示 Σ 的行列式。

模式识别与机器学习笔记2018.8.21_第4张图片

现在假定我们有一个观测的数据集 x = (x 1 ,...,x N ) T ,表示标量变量 x 的 N 次观测,

独立同分布:每次抽样之间独立而且同分布(样本都服从同样的一个分布)

我们已经看到两个独立事件的联合概率可以由各个事件的边缘概率的乘积得到。由于我们的数据集 x 是独立同分布的,因此给定 µ 和 σ 2 ,我们可以给出数据集的概率 

.........1.53

使⽤⼀个观测数据集来决定概率分布的参数的⼀个通⽤的标准是寻找使似然函数取得最⼤值的参数值。

我们要通过最大化似然函数(1.53)来确定高斯分布中未知的参数 µ 和 σ 2 。实际应用中,考虑似然函数的对数值更方便。

最大似然解

模式识别与机器学习笔记2018.8.21_第5张图片1.55                             1.56

这是关于样本均值 µ ML 的样本方差( sample variance )。注意,我们要同时关于 µ 和 σ 2 来最大化函数,但是在高斯分布的情况下, µ 的解和 σ 2 无关,因此我们可以先估计公式(1.55)然后使用这个结果来估计公式(1.56)

模式识别与机器学习笔记2018.8.21_第6张图片

模式识别与机器学习笔记2018.8.21_第7张图片

 

 

你可能感兴趣的:(机器学习,深度学习基础)