参数估计-最大似然估计和贝叶斯参数估计

为什么要进行参数估计

  参数估计是统计学中的经典问题,常用的方法是最大似然估计和贝叶斯估计。为什么机器学习中,也会用到参数估计呢?我们利用训练样本来估计先验概率和条件概率密度,并以此设计分类器。当假设数据符合某种分布时,其参数均是未知的,此时分类模型是包含未知参数的概率模型,因此要对其进行参数估计。

最大似然估计

  最大似然估计的思想:找到一组参数,使得当前样本集出现的可能性最大。
  基本步骤
  1. 假设 p(x|wj) 服从某种分布,得到其含有未知参数的概率表达。
  2. 根据样本是独立抽取的,得到总样本集的似然函数:
  

P(D|θ)=ni=1p(xi|θ)

  3. 化积为和,取 ln 得到 L(θ)=ni=1ln(p(xi|θ))
  4. 对未知参数分别求导,令其=0。求解参数极值点。
  5. 验证所得的极值点是否是最值点(全局解)。
   限制性
  (1) θ^ 始终是真实值 θ 的估计值,其真实性受到训练样本个数的限制。当训练样本个数越多时,其中的样本越具有代表性,那么估计值 θ^ 也就越接近真实值 θ
  (2) 不正确的模型假设造成的误差很大。在设计分类器之前,要慎重假设数据所服从的分布。

贝叶斯估计

  贝叶斯估计的思想:将 θ 作为一个随机变量,进行估计。
  贝叶斯分类方法的核心是后验概率 P(wi|x) 的计算:
  

P(wi|x,D)=p(x|wi,D)P(wi|D)cj=1p(x|wj,D)P(wj|D)

  有监督学习,若数据集 D 可以按照类别分为C D1,D2,...DC 。其中 D1 数据集只对 p(x|w1,D) 有影响,对其他 wj 没有作用。
  因此,可以 简化公式如下:
  
P(wi|x,D)=p(x|wi,Di)P(wi)cj=1p(x|wj,Dj)P(wj)

  我们需要估计先验概率 P(wj) 和条件概率 p(x|wj,Dj) ,以此计算后验概率 P(wi|x)
   如何将对 θ 的估计跟 p(x|D) (其实是 p(x|wj,Dj) )联系起来呢?
  
p(x|D)=p(x,θ|D)dθ

  其中
p(x,θ|D)=p(x|θ,D)p(θ|D)=p(x|θ)p(θ|D)

  故
p(x|D)=p(x|θ)p(θ|D)dθ

  上式即是 贝叶斯估计的核心公式。如果后验密度 p(θ|D) 在某一个值 θ^ 附近形成最显著的尖峰,那么 p(x|D)p(x|θ)
   基本步骤:
  1. 假设 x|θ 服从某种分布 p(x|θ) θ 服从某一已知的分布 p(θ)
  2. 由 θ 的分布可直接得到 p(θ|D) ;同时可由样本计算得到 p(θ|D)=p(x|θ)p(θ|D)dθ ;此时可以计算得到 p(θ|D)
  3. 由 p(θ|D) 可以进一步根据贝叶斯估计公式计算 p(x|D)=p(x|θ)p(θ|D)dθ 。贝叶斯估计参数至此完成。
  4. 将 p(x|D) 带入贝叶斯分类的后验概率 P(wi|x,D)=p(x|wi,Di)P(wi)cj=1p(x|wj,Dj)P(wj)

最大似然和贝叶斯估计的比较

  (1)
  最大似然估计: θ 是一个确定而未知的参数。
  贝叶斯估计: θ 是一个随机变量。
  (2)
  最大似然估计:最佳参数就是使得产生已观测数据的概率为最大的那个参数。
  贝叶斯估计:参数是服从某种先验概率 p(θ) 分布的随机变量。对样本进行观测的过程,就是把先验概率 p(θ) 转换为后验概率 p(θ|D) ,这样就利用了样本信息修正了对参数的初始估计值。(最典型的效果是,每得到新的观测样本,都使得后验概率密度函数变得更尖锐,使其在参数的真实值附近形成最大的尖峰)
  补充:
  MAP-最大后验概率:
   θ^MAP=argmaxθ[f(x|θ)g(θ)]
  MLE-最大似然估计: θ^MLE=argmaxθ[f(x|θ)]
  

你可能感兴趣的:(技术博客,机器学习,统计学,参数估计,模式识别)