在机器学习中,几乎到处都可以见到exponential family的影子。从伯努利分布,高斯分布,logistic回归,最大熵,都与exponential family息息相关。找了很久的资料,后来发现来自【1】中的讲解最好最清楚。本文是对其的摘录和理解。
exponential family定义
其中pdf指probability density function, pmf指probability mass function,都当做概率密度函数就好的,不影响理解。
其中θ叫做自然变量(natural parameters),Φ(x)叫做充分统计量,Z(θ)是归一化因子。
这个公式看起来很玄,为什么会出现以e为底的指数形式呢?我的理解是e可以把乘法运算变成加法运算。
有以下重要性质
1. 伯努利分布,高斯分布,均匀分布,gamma分布,t分布都可以转化为exponential family的形式。
2. 在一定条件下,exponential family是唯一具有充分统计量的分布家族。(一定条件指的是the support of the distribution not be dependent on the parameter,比较抽象,详细请见【1】)
3. exponential family 是唯一具有共轭先验的分布。
4. exponential family是在给定限制条件下,做出最少假设的分布家族(所以最大熵模型是exponential family形式!解释通了!)
5. exponential family是通用线性模型(generalized linear models)的核心。(可以解释logistic回归中的映射函数为)
6. exponential family是variational inference的核心。
原文
鉴于以上性质实在太重要了,特把原文摘录如下
others
其实exponential family有更一般的形式:
但一般情况下都不采用这个,采用9.1或9.2就够了。
参考资料
【1】Kevin P. Murphy <Machine Learning A Probabilistic Perspective> (概率论与统计学讲得非常深刻,很好的书,太厚了,我通常都是需要查什么就去翻翻)