指数分布族和广义线性模型

1.指数分布族

1.1 定义

  指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。 指数分布族不是专指一种分布,而是一系列符合特征的分布的统称。 在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布。
p ( y ; θ ) = b ( y ) e x p ( η ( θ ) T ( y ) − A ( θ ) ) p(y;\theta)=b(y)exp\left(\eta(\theta)T(y)-A(\theta)\right) p(y;θ)=b(y)exp(η(θ)T(y)A(θ))
其中, η \eta η是分布的自然参数(nature parameter); T ( y ) T(y) T(y)是充分统计量(sufficient statistic),通常 T ( y ) = y T(y)=y T(y)=y a ( η ) a(\eta) a(η)是 对数配分函数, e − a ( η ) e^{-a(\eta)} ea(η)在式子中起到归一化作用,保证概率密度函数在随机变量 y y y上的积分为1, 一旦 T 、 a 、 b T、a、b Tab确定,就可以确定一种分布, η \eta η 为参数。

常用的诸如正态分布,伯努利分布,指数分布,泊松分布,gamma分布都属于指数分布族。

1.2伯努利分布

伯努利分布的概率密度函数为:
p ( y ; θ ) = θ y ( 1 − θ ) 1 − y = e x p ( y log ⁡ θ + ( 1 − y ) log ⁡ ( 1 − θ ) ) = e x p ( log ⁡ θ 1 − θ y + log ⁡ ( 1 − θ ) ) \begin{align} p(y;\theta)&=\theta^y(1-\theta)^{1-y} \\[2ex] &=exp\left(y\log\theta+\left(1-y\right)\log\left(1-\theta\right)\right) \\[2ex] &=exp\left(\log\frac{\theta}{1-\theta}y+\log(1-\theta)\right) \end{align} p(y;θ)=θy(1θ)1y=exp(ylogθ+(1y)log(1θ))=exp(log1θθy+log(1θ))
对应指数分布族的概率密度函数可以发现:
b ( y ) = 1 η ( θ ) = log ⁡ θ 1 − θ T ( y ) = y A ( θ ) = − l o g ( 1 − θ ) = l o g ( 1 + e η ( θ ) ) \begin{align} &b(y)=1 \\[2ex] &\eta(\theta)=\log\frac{\theta}{1-\theta}\\[2ex] &T(y)=y \\[2ex] &A(\theta)=-log(1-\theta)=log(1+e^{\eta(\theta)}) \end{align} b(y)=1η(θ)=log1θθT(y)=yA(θ)=log(1θ)=log(1+eη(θ))

1.3 高斯分布

对于均值为 μ \mu μ,方差为 σ \sigma σ的高斯分布的概率密度函数为:
p ( y ; μ , σ ) = 1 2 π σ e − ( y − μ ) 2 2 σ 2 = 1 2 π e η ( μ , σ ) T ( y ) − log ⁡ σ − μ 2 2 σ 2 \begin{align} p(y;\mu,\sigma)&=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y-\mu)^2}{2\sigma^2}} \\[2ex] &=\frac{1}{\sqrt{2\pi}}e^{\eta(\mu,\sigma)T(y)-\log\sigma-\frac{\mu^2}{2\sigma^2}} \\[2ex] \end{align} p(y;μ,σ)=2π σ1e2σ2(yμ)2=2π 1eη(μ,σ)T(y)logσ2σ2μ2
对应指数分布族的概率密度函数可以发现:
b ( y ) = 1 2 π η ( σ ) = [ μ σ 2 , − 1 2 σ 2 ] T ( y ) = [ y , y 2 ] A ( θ ) = μ 2 2 σ 2 + log ⁡ σ \begin{align} &b(y)=\frac{1}{\sqrt{2\pi}} \\[2ex] &\eta(\sigma)=[\frac{\mu}{\sigma^2},-\frac{1}{2\sigma^2}]\\[2ex] &T(y)=[y,y^2] \\[2ex] &A(\theta)=\frac{\mu^2}{2\sigma^2}+\log\sigma \end{align} b(y)=2π 1η(σ)=[σ2μ,2σ21]T(y)=[y,y2]A(θ)=2σ2μ2+logσ

1.4 其他指数分布族

  • 多项式分布(multinomial),用来对多元分类问题进行建模;
  • 泊松分布(Poisson),用来对计数过程进行建模,如网站的访客数量、商店的顾客数量等;
  • 伽马分布(gamma)和指数分布(exponential),用来对时间间隔进行建模,如等车时间等;
  • β分布(beta)和Dirichlet分布(Dirichlet),用于概率分布;
  • Wishart分布(Wishart),用于协方差矩阵分布。

2.广义线性模型(GLM)

我们所熟知的 线性回归,逻辑回归都属于glm,其中线性回归假设服从高斯分布,逻辑回归假设服从伯努利分布,但是为什么要这样并不是非常清楚。

2.1 三个假设

  • 在给定自变量 x x x和参数 θ \theta θ的情况下,因变量 y y y服从指数分布族
  • 给定 x x x,最终目的是求出 T ( y ) T(y) T(y)的期望 E [ T ( y ) ∣ x ] E[T(y)|x] E[T(y)x]
  • 自然参数 η \eta η可以表示为自变量 x x x的线性关系,即 η = θ T x η=\theta^Tx η=θTx

广义线性模型通过拟合 y y y的条件均值/期望(在 x x x和参数 θ \theta θ给定的情况下),并假设 y y y符合指数分布族中的某种分布,从而扩展了标准线性模型

2.2 伯努利分布

对于伯努利分布, y y y的均值为 ϕ \phi ϕ,就是指数分布族下的唯一参数。 根据上面的推导可得:
η = log ⁡ ϕ 1 − ϕ = θ T x \begin{align} \eta&=\log\frac{\phi}{1-\phi}\\[2ex] &=\theta^Tx \\[2ex] \end{align} η=log1ϕϕ=θTx
推导出:
y = 1 1 + e − η = 1 1 + e − θ T x   \begin{align} y&=\frac{1}{1+e^{-\eta}}\\[2ex] &=\frac{1}{1+e^{-\theta^Tx}}\ \\[2ex] \end{align} y=1+eη1=1+eθTx1 
上式就是逻辑回归的表达式,对应与逻辑回归下y作伯努利分布的假设。

2.3 高斯分布

对于高斯分布, y y y的均值为参数 μ \mu μ, 根据上面的推导可得:
y = μ = η = θ T x ( 假设 σ = 1 ) y=\mu=\eta=\theta^Tx(假设\sigma=1) y=μ=η=θTx(假设σ=1)
上式和线性回归对于 y y y作高斯分布的假设相呼应

3.GLM建模过程

  • 根据问题在指数分布族中选择一种分布作为对 y y y的假设
  • 计算该分布下的 η \eta η,实际上 η = η ( w T ) \eta=\eta(w^T) η=η(wT),其中 w T w^T wT为该分布的真实参数,而 η \eta η只是以 w T w^T wT为参数的一个link function
  • 计算该分布的期望,将其用 η \eta η表示,例如上面伯努利分布时的 y = ϕ = 1 1 + e − η y=\phi=\frac{1}{1+e^{−η}} y=ϕ=1+eη1
  • 根据GLM的假设替换 η = θ T x \eta=\theta^Tx η=θTx即得到GLM模型

4.总结

  • 指数族分布的形式: p ( y ; θ ) = b ( y ) e x p ( η ( θ ) T ( y ) − A ( θ ) ) p(y;\theta)=b(y)exp\left(\eta(\theta)T(y)-A(\theta)\right) p(y;θ)=b(y)exp(η(θ)T(y)A(θ))
  • 常用的诸如正态分布,伯努利分布,指数分布,泊松分布,gamma分布都属于指数分布族。
  • 广义线性模型通过拟合 y y y的条件均值/期望(在 x x x和参数 θ \theta θ给定的情况下),并假设 y y y符合指数分布族中的某种分布,从而扩展了标准线性模型

本文仅作为个人学习记录使用, 不用于商业用途, 谢谢您的理解合作。

参考:https://shangzhih.github.io/zhi-shu-fen-bu-zu-he-yan-yi-xian-xing-hui-gui.html

你可能感兴趣的:(机器学习,机器学习,概率论,人工智能)