机器学习基础·参数估计

摘要

极大似然估计(MLE),贝叶斯估计(BE),最大后验估计(MAP),共轭先验

正文
  1. 问题描述
    假设观测数据是由生成的,现在需要估计参数。
  2. MLE
    MLE假设产生数据的模型参数是固定的,通过最大化似然函数直接求解参数,即求解如下问题:一般转换为对数似然来求解:
  3. BE
    BE假设产生数据的模型参数也是随机变量,有其自身的分布,求解先得到在观测数据下的后验分布,再由取的期望作为估计的参数,即:在使用BE时需要事先给定的先验,一般使用的共轭先验。
  4. MAP
    MAP对BE作了简化,认为在大部分情况下,参数值最有可能出现在概率最大点附近,所以直接求解最大化后验概率的,即:其中可以认为是结构化风险中的正则项。
  5. 共轭先验
    在BE过程中选取先验分布时一般选取为在中具有相同形式的分布作为的先验分布,先验和后验分布具有相同形式的称为共轭先验。在[2]中提到共轭先验的选取有如下好处:a).符合直观,先验分布和后验分布应该是相同形式的;b).可以给出后验分布的解析形式;c).可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。当然也存在问题:共轭先验的选取很大程度上是基于数学理论的方便性,带有很强的主观色彩,而这也是饱受频率学派诟病的一点。频率学派认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。
    常见的共轭先验:二项分布中参数的共轭分布为分布;多项式分布的参数的共轭分布为狄利克雷分布;高斯分布参数均值的共轭分布为高斯分布,精度的共轭分布为分布或分布。
参考资料

[1] Bishop M. Pattern Recognition and Machine Learning[M].Springer,2006.
[2] https://zhuanlan.zhihu.com/p/61593112
[3] https://blog.csdn.net/liu1194397014/article/details/52766760
[4] https://www.jianshu.com/p/9c153d82ba2d
[5] https://www.cnblogs.com/eilearn/p/9433911.html

你可能感兴趣的:(机器学习基础·参数估计)