算法工程狮五、指数分布族

1.定义

指数分布族是指一类具有特定形式的分布函数,具体如下:
$$P(y|\eta)=b(y)e^{\eta^TT(y)-a(\eta)}=\dfrac{b(y)e^{\eta^TT(y)}}{e^{a(\eta)}} \begin{cases} \eta:参数向量/自然参数,通常为实数 \\\ a:对数配分函数/对数规则化 \\\ T(y):充分统计量,通常T(y)=y \\\ b:底层观测值 \end{cases}$$
指数分布族此形式就是给定a,b,T定义了一个以η为参数的概率分布集合

2.对数规则化

将上式变形得:
$$P(y|\eta)e^{a(\eta)}=b(y)e^{\eta^TT(y)}$$
对两边同时对y积分:
$$\int P(y|\eta)e^{a(\eta)}dy=\int b(y)e^{\eta^TT(y)}dy$$
左边刚好条件概率的积分为1,化简为:
$$e^{a(\eta)}=\int b(y)e^{\eta^TT(y)}dy$$
对数化:
$$a(\eta)=\ln\int b(y)e^{\eta^TT(y)}dy$$
现在一目了然,还就是对数规则化

3.常见指数分布族

正态分布-总体噪音
伯努利分布-LR(01)
β分布
迪利克雷分布

4.指数分布族推导举例

高斯分布

高斯分布:$P(y|\eta)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\dfrac{x^2}{2\sigma^2}}$,将其进行如下变形:
$$P(y|\eta)=\dfrac{1}{\sqrt{2\pi}}e^{-\log\sigma}\cdot e^{-\dfrac{x^2}{2\sigma^2}}=\dfrac{1}{\sqrt{2\pi}}e^{-\dfrac{1}{2\sigma^2}x^2-\log\sigma}$$
这不就是指数分布族的形式嘛

二项分布

$$ \begin{aligned} P(y|\eta) & = \large\phi^y(1-\phi)^{1-y} \\\ & = \large e^{\normalsize{y\log\phi+(1-y)\log(1-\phi)}} \\\ & =\large e^{\large{\log\frac{\phi}{1-\phi}y+\log(1-\phi)}}\end{aligned} $$

5.最大熵思想

指数分布族满足最大熵思想,即经验分布通过最大熵的形式导出的分布就是指数分布族。
经验分布$\hat{P}(x)=\dfrac{count(x)}{N}$,对于任意函数,其经验期望为$E_{\tilde{P}}(f(x))=\Delta$。于是:
$$max\{H(P)\}=min\{\sum\limits_{k=1}^{K}p_k\log p_k\},\quad s.t.\sum\limits_{k=1}^{K}p_k=1,E_{\tilde{P}}(f(x))=\Delta$$
构造广义拉格朗日函数:
$$L=\sum\limits_{k=1}^{K}p_k\log p_k+\lambda_0(1-\sum\limits_{k=1}^{K}p_k)+\lambda^T(\Delta-E_pf(x))$$
对P(x)求导得:
$$\frac{\partial L}{\partial P(x)}=\sum\limits_{k=1}^{K}\log P(x)+1-\lambda_0-\lambda^Tf(x)=0$$
解得:
$$P(x)=e^{\lambda^Tf(x)+\lambda_0-1}$$

6.广义线性模型(GLM)

广义线性模型包括线性模型、LR、Softmax。之所以要提到广义线性模型,是因为其由指数分布族导出,其导出步骤为:

  • 假设y符合以x,θ为参数η作为自然参数的指数分布族
  • 学习:$h(x)=E(T(y)|x)$
  • $\eta=\theta^Tx,自然参数与x线性相关$
例 由伯努利分布导LR

$$x\rightarrow回归模型w^Tx\rightarrow\eta=w^Tx导出连接函数g^{-1}(\eta)\rightarrow广义线性模型h(x)=g^{-1}(\eta)$$

$$ \begin{aligned} P(y|\eta) & = \large\phi^y(1-\phi)^{1-y} \\\ & = \large e^{\normalsize{y\log\phi+(1-y)\log(1-\phi)}} \\\ & =\large e^{\large{\log\frac{\phi}{1-\phi}y+\log(1-\phi)}}\end{aligned} $$

$$\Rightarrow T(y)=y,\eta={\log\frac{\phi}{1-\phi}} \\\ \Rightarrow\phi=\dfrac{1}{1+e^{-\eta}} \\\ \Rightarrow h(x)=E(T(y)|x)=E(y|x)=\phi=\dfrac{1}{1+e^{-w^Tx}}$$

你可能感兴趣的:(算法,机器学习,人工智能,深度学习,数据挖掘)