MLb-014 57《机器学习》周志华 第十四章:概率图模型

第十四章 概率图模型

此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…


14.1 隐马尔可夫模型

1、概述

  • 机器学习最重要任务:根据一些已观察到的证据对感兴趣的未知变量进行估计和推测

  • 概率模型提供的描述框架——推断

    • 基于可观测变量推出未知变量的条件分布
    • 所关心变量集:Y;可观测变量集:O;其他变量集:R
      生成式模型:对联合分布 P ( Y , R , O ) P(Y,R,O) P(Y,R,O)建模
      判别式模型:对条件分布 P ( Y , R ∣ O ) P(Y,R|O) P(Y,RO)建模
  • 概率图模型

    • 有向无环图:有向图模型或贝叶斯网
      隐马尔可夫模型(Hidden Markov Model, HMM):结构最简单的动态贝叶斯网
      • 结构信息:Markov Chain( x i x_i xi:第i时刻观测值; y i y_i yi:第i时刻系统状态)
        MLb-014 57《机器学习》周志华 第十四章:概率图模型_第1张图片
        P ( x 1 , y 1 , . . . , x n , y n ) = P ( y 1 ) P ( x 1 ∣ y 1 ) ∏ i = 2 n P ( y i ∣ y i − 1 ) P ( x i ∣ y i ) P(x_1,y_1,...,x_n,y_n)=P(y_1)P(x_1|y_1)\prod_{i=2}^nP(y_i|y_{i-1})P(x_i|y_i) P(x1,y1,...,xn,yn)=P(y1)P(x1y1)i=2nP(yiyi1)P(xiyi)
      • 三个参数
        状态转移概率: a i j = P ( y t + 1 = s j ∣ y t = s i ) a_{ij}=P(y_{t+1}=s_j|y_t=s_i) aij=P(yt+1=sjyt=si)
        输出观测概率: b i j = P ( x t = o j ∣ y t = s i ) b_{ij}=P(x_t=o_j|y_t=s_i) bij=P(xt=ojyt=si)
        初始状态概率: π i = P ( y 1 = s i ) \pi_i=P(y_1=s_i) πi=P(y1=si)
    • 无向图:无向图模型或马尔科夫网
      • 马尔科夫随机场
      • 条件随机场

14.2 马尔可夫随机场

  • 联合概率的定义
    P ( x ) = 1 Z ∏ Q ∈ C ψ Q ( x Q ) P(\bm x)=\frac 1 Z\prod_{Q\in\mathcal{C}}\psi_Q(\bm x_Q) P(x)=Z1QCψQ(xQ)
    势函数 (因子):定义在变量子集上的非负实函数,用于定义概率分布函数
  • 马尔可夫随机场中,多个变量之间的联合概率分布能基于团分解为多个因子的乘积,每个因子只和一个团相关
  • 为满足非负性,常用指数函数定义势函数
  • 三个性质
    全局马尔可夫性:给定两个变量子集的分离集,则这两个变量子集条件独立
    局部马尔可夫性:给定某变量的邻接变量,则该变量条件独立与其他变量
    成对马尔可夫性:给定所有其他变量,两个非邻接变量条件独立

14.3 条件随机场

1、性质:判别式模型
( y , x ) (\bm y,\bm x) (y,x)构成条件随机场:图G的每个变量 y v y_v yv都满足Markov性
P ( y v ∣ x , y V − { v } ) = P ( y v ∣ x , y n ( v ) ) P(y_v|\bm x,\bm y_{V-\{v\}})=P(y_v|\bm x,\bm y_{n(v)}) P(yvx,yV{v})=P(yvx,yn(v))

2、链式条件随机场
MLb-014 57《机器学习》周志华 第十四章:概率图模型_第2张图片

  • 条件概率定义:
    MLb-014 57《机器学习》周志华 第十四章:概率图模型_第3张图片
  • 定义合适的特征函数
    采用转移特征函数
    在这里插入图片描述
    采用状态特征函数
    在这里插入图片描述
    3、共性和区分
  • 条件随机场(CRF)和马尔可夫随机场(MRF)都是用团上势函数定义概率
  • CRF处理条件概率,MRF处理联合概率

14.4 精确推断

14.4.1 变量消去

  • 最直观的精确推断算法
  • 例子和基本思路
    MLb-014 57《机器学习》周志华 第十四章:概率图模型_第4张图片

此时运算能够限制在局部,简化了计算的过程

  • 缺点:若需计算多个边际分布,重复使用变量消去将会造成大量冗余计算

14.4.2 信念传播

  • 将变量消去法的求和操作看做一个信息传递过程,基本求和操作为
    m i j ( x j ) = ∑ x i ψ ( x i , x j ) ∏ k ∈ n ( i ) / j m k i ( x i ) m_{ij}(x_j)=\sum_{x_i}\psi(x_i,x_j)\prod_{k\in n(i)/j}m_{ki}(x_i) mij(xj)=xiψ(xi,xj)kn(i)/jmki(xi)
  • 对于无环图,信念传播的两个步骤:
    指定根节点并传播至所有节点;所有节点传至根节点

14.5 近似推断

14.5.1 MCMC采样(使用随机化方法完成近似)

  • 基本思路:不算概率分布,直接计算或逼近期望
  • MCMC的关键:构造平稳分布为p的Markov链产生样本
    平稳条件: p ( x t ) T ( x t − 1 ∣ x t ) = p ( x t − 1 ) T ( x t ∣ x t − 1 ) p(x_t)T(x_{t-1}|x_t)=p(x_{t-1})T(x_t|x_{t-1}) p(xt)T(xt1xt)=p(xt1)T(xtxt1)
  • Metropolis-Hastings算法(Gibbs采样有时被视为MH的特例)
    MLb-014 57《机器学习》周志华 第十四章:概率图模型_第5张图片

14.5.2 变分推断(使用确定性近似完成推断)

确定性近似:完成近似推断

14.6 话题模型

  • 一族生成有向图模型
    代表:LDA(隐狄利克雷分配模型)
  • LDA从生成式模型角度看待文档和话题:
    1.根据参数为 α \bm\alpha α的狄利克雷分布随机采样一个话题分布 Θ t \Theta_t Θt
    2.按照如下步骤生成文档中的N个词
    (1)根据 Θ t \Theta_t Θt进行话题指派,得到文档t中词n的话题 z t , n z_{t,n} zt,n
    (2)根据指派的话题所对应的词频分布 β k \bm\beta_k βk随机采样生成词

你可能感兴趣的:(MLBOOK,01)