数据缺失情况下的参数估计

数据缺失情况下的参数估计

  1. 前言
    前一篇讲到了参数估计, 其中会涉及到特征维数问题,类别间有差异的特征有助于分类,而特征太多又会造成计算和存储的困难,并且还会造成overfitting导致泛化性能不高。通常会添加正则化或进行特征降维或进行参数共享/平滑来防止过拟合。本章讨论的是在样本点的某些特征丢失的情况下如何进行分类的问题。
  2. EM(expectation-maximization)算法
    数据缺失情况下的参数估计_第1张图片
    数据缺失情况下的参数估计_第2张图片
  3. EM for GMM(Gaussian Mixture Model)
    数据缺失情况下的参数估计_第3张图片
    数据缺失情况下的参数估计_第4张图片
    数据缺失情况下的参数估计_第5张图片
  4. EM for HMM(Hidden Markov Model)
    隐马尔科夫模型(HMM)是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生随机序列的过程,隐藏的马尔科夫链随机生成的状态的序列,称为状态序列;每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列,序列的每一个位置又可以看成是一个时刻。HMM由初始状态概率向量 π π ,状态转移概率矩阵A和观测概率矩阵B决定。 π π A决定状态序列,B决定观测序列。因此,隐马尔科夫模型 λ λ 可以用三元组来表示: λ=A,B,π λ = ( A , B , π ) 。HMM有三个基本问题:
    (1)概率计算问题(估计问题,Evaluation):给定模型 λ=(A,B,π) λ = ( A , B , π ) 和观测序列 O=(o1,o2,...,on) O = ( o 1 , o 2 , . . . , o n ) ,计算在模型 λ λ 下观测序列O出现的概率 P(O|λ) P ( O | λ ) 。(前向算法和后向算法)
    (2)学习问题:已知观测序列 O=(o1,o2,...,on) O = ( o 1 , o 2 , . . . , o n ) ,估计模型 λ=(A,B,π) λ = ( A , B , π ) ,使得在该模型下观测序列概率 P(O|λ) P ( O | λ ) 最大。(根据训练数据是包括观测序列和对应的状态序列还是只有观测序列,可以分别由监督学习与非监督学习实现。监督学习方法即使用极大似然估计法来估计HMM的参数,而非监督学习方法即Baum-Welch算法,也就是EM算法的前身)。
    (3)预测问题,也称为解码问题:已知模型 λ=(A,B,π) λ = ( A , B , π ) 和观测序列 O=(o1,o2,...,on) O = ( o 1 , o 2 , . . . , o n ) ,求对给定观测序列条件概率P(I|O)最大的状态序列 I=(i1,i2,...,iT) I = ( i 1 , i 2 , . . . , i T ) ,即给定观测序列,求最有可能的对应的状态序列。(维特比算法求解;对于标注问题,其与条件随机场(CRF)也有密切的关联,后面的文章会一并提到)。

你可能感兴趣的:(Machine,Learning)