4.2 概率生成式模型(PRML读书笔记)

本节小结

  本小节介绍了通过生成式方式求解类的后验概率的方法。通过对类先验概率 p ( C k ) p(C_k) p(Ck)和类条件概率 p ( x ∣ C k ) p(\textbf{x}|C_k) p(xCk)分别建模,再根据贝叶斯定理 p ( C k ∣ x ) = p ( x ∣ C k ) p ( C k ) ∑ j p ( x ∣ C j ) p ( C j ) p(C_k|\textbf{x})=\frac{p(\textbf{x}|C_k)p(C_k)}{\sum_{j}p(\textbf{x}|C_j)p(C_j)} p(Ckx)=jp(xCj)p(Cj)p(xCk)p(Ck)得出类的后验概率。通过对类条件概率 p ( x ∣ C k ) p(\textbf{x}|C_k) p(xCk)作简单假设,即得到了线性决策边界的模型。

  在进行具体介绍之前,先对后验概率做下转换。二分类情形下,

4.2 概率生成式模型(PRML读书笔记)_第1张图片
在这里插入图片描述
在这里插入图片描述
  多分类的情形,
4.2 概率生成式模型(PRML读书笔记)_第2张图片在这里插入图片描述
  为什么要把后验概率 p ( C 1 ∣ x ) p(C_1|\textbf{x}) p(C1x)转换成sigmoid形式(公式4.57)呢?转换成公式4.57的形式,当 a a a x \textbf{x} x的线性函数时,即可得出决策面是线性的。转换成softmax(公式4.62)的原因与之类似。

  输入变量x按类型分,有连续型和离散型,4.2.1、4.2.2、4.2.3节分别做了介绍。
  4.2.1介绍了连续型输入变量下的生成式模型。首先假定每个类条件概率分布为高斯分布并且协方差矩阵相同(注意:有了这个假定,才有了决策边界为线性),分布的具体形式为
在这里插入图片描述
  对二分类的情形,根据公式4.57和4.58,可得
在这里插入图片描述
其中
在这里插入图片描述
最终求得的决策边界对应于后验概率 p ( C k ∣ x ) p(C_k|\textbf{x}) p(Ckx)(公式4.65)为常数的决策⾯,则 w T x + w 0 \textbf{w}^T\textbf{x}+w_0 wTx+w0为常数,从⽽决策边界在输⼊空间是线性的。多分类的情形与二分类类似。
  4.2.2节对4.2.1节的模型通过最大似然法求解模型参数。需要确定的参数有类先验概率 p ( C k ) p(C_k) p(Ck)、类条件概率分布的均值 μ k \mu_{k} μk、共同的协方差矩阵 Σ \Sigma Σ。最大似然的结果与直观意义相符, p ( C k ) p(C_k) p(Ck)为类 C k C_k Ck的样本数占所有类别的比例, μ k \mu_{k} μk的最大似然解为类 C k C_k Ck的所有样本对应的x值的均值, Σ \Sigma Σ的最大似然解为与每个类分别有关系的协⽅差矩阵求加权平均(最后半句的理解)。
  需要注意的是,4.2.1节是通过类的后验概率来引入决策边界,4.2.2节的最大似然是联合概率分布 ( x , C k ) (\textbf{x},C_k) (x,Ck)对应的参数的最大似然。

  4.2.3节介绍了离散变量的模型。假定输入变量x的每个分量是独立的。假如每个分量都是二值变量,多分类下的条件概率分布为
在这里插入图片描述
根据公式4.63,可得
在这里插入图片描述
公式4.82是输入变量x的线性函数,从而决策面是线性的。
  当每个分量是多值变量(多于2个值)时也可得出类似的结果。类似可得二分类下的情形。
  本章并未对离散型输入变量下参数的求解方法进行介绍,实际上方法与4.2.2节类似,通过最大似然方法即可求解。

互动话题

  • x为连续型输入变量时,4.2.1小节假定每个类条件概率分布为高斯分布并且协方差矩阵相同,这个假定是否太强?

  • x为连续型输入变量时,4.2.3小节假定x的每个分量为独立的,这个假定是否太强。如果不满足这个假定会如何?

  • 4.2.2节中似然函数的理解。
    对于⼀个来⾃类别 C 1 C_1 C1的数据点 x n \textbf{x}_n xn,我们有 t n t_n tn = 1,因此
    在这里插入图片描述
    类似地,对于类别 C 2 C_2 C2,我们有 t n t_n tn = 0,因此
    在这里插入图片描述
    于是似然函数为
    在这里插入图片描述
    p ( t ∣ π , μ 1 , μ 2 , Σ ) p(\textbf{t}|\pi,\mu_1,\mu_2,\Sigma) p(tπ,μ1,μ2,Σ)应当换成 p ( t,X ∣ π , μ 1 , μ 2 , Σ ) p(\textbf{t,X}|\pi,\mu_1,\mu_2,\Sigma) p(t,Xπ,μ1,μ2,Σ)更合理

  • 本节为什么没有像第3章一样通过最大后验或贝叶斯方法求解?

后续工作

4.2.4节指数族分布需要等复习完2.4节之后再看。

你可能感兴趣的:(机器学习,PRML读书笔记)