关于单变量高斯分布的一些数学推导

关于单变量高斯分布的一些数学推导

    • 1. 满足概率密度函数的标准化条件的推导,即推导式(1.48) :
    • 2. 均值的推导
    • 3. 方差的推导
    • 4. 均值和方差的最大似然估计推导

对 Christopher M. Bishop 大神的 《Pattern Recognition and Machine Learning》书中第一章相关单变量高斯分布的一些公式进行了详细推导。涉及到书中的公式,其编号与原书一致。

单变量高斯分布定义为:

(1.46) N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 / 2 exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } \mathcal{N}(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}} \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2\right\} \tag{1.46} N(xμ,σ2)=(2πσ2)1/21exp{2σ21(xμ)2}(1.46)

1. 满足概率密度函数的标准化条件的推导,即推导式(1.48) :

(1.48) ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) d x = 1 \int_{-\infty}^\infty \mathcal{N}(x|\mu,\sigma^2) \mathrm{d}x = 1 \tag{1.48} N(xμ,σ2)dx=1(1.48)

∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) d x = ∫ − ∞ ∞ 1 ( 2 π σ 2 ) 1 / 2 exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } d x = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } d x = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ exp ⁡ { − 1 2 ( x − μ σ ) 2 } d x = 1 ( 2 π σ 2 ) 1 / 2 σ ∫ − ∞ ∞ exp ⁡ { − 1 2 ( x − μ σ ) 2 } d x − μ σ = 1 ( 2 π ) 1 / 2 ∫ − ∞ ∞ exp ⁡ ( − 1 2 t 2 ) d t 这里使用 t = x − μ σ 进行代换  = 1 ( 2 π ) 1 / 2 2 ∫ − ∞ ∞ exp ⁡ [ − ( t 2 ) 2 ] d t 2 = 1 π ∫ − ∞ ∞ exp ⁡ ( − z 2 ) d z = 1 \begin{aligned} \int_{-\infty}^\infty \mathcal{N}(x|\mu,\sigma^2) \mathrm{d}x &= \int_{-\infty}^\infty \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right\} \mathrm{d}x \\ &= \frac{1}{(2 \pi \sigma^2)^{1/2}} \int_{-\infty}^\infty \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right\} \mathrm{d}x \\ &= \frac{1}{(2 \pi \sigma^2)^{1/2}} \int_{-\infty}^\infty \exp \left\{ -\frac{1}{2}(\frac{x-\mu}{\sigma})^2 \right\} \mathrm{d}x \\ &= \frac{1}{(2 \pi \sigma^2)^{1/2}} \sigma \int_{-\infty}^\infty \exp \left\{ -\frac{1}{2}(\frac{x-\mu}{\sigma})^2 \right\} \mathrm{d}\frac{x-\mu}{\sigma} \\ &= \frac{1}{(2 \pi )^{1/2}}\int_{-\infty}^\infty \exp \left( -\frac{1}{2}t^2 \right) \mathrm{d}t \quad \text{这里使用$t=\frac{x-\mu}{\sigma}$进行代换 }\\ &= \frac{1}{(2 \pi )^{1/2}} \sqrt{2} \int_{-\infty}^\infty \exp \left[ -\left(\frac{t}{\sqrt{2}}\right)^2 \right] \mathrm{d}\frac{t}{\sqrt{2}} \\ &= \frac{1}{\sqrt{\pi}} \int_{-\infty}^\infty \exp (-z^2 ) \mathrm{d}z \\ &= 1 \end{aligned} N(xμ,σ2)dx=(2πσ2)1/21exp{2σ21(xμ)2}dx=(2πσ2)1/21exp{2σ21(xμ)2}dx=(2πσ2)1/21exp{21(σxμ)2}dx=(2πσ2)1/21σexp{21(σxμ)2}dσxμ=(2π)1/21exp(21t2)dt这里使用t=σxμ进行代换 =(2π)1/212 exp[(2 t)2]d2 t=π 1exp(z2)dz=1

注:关于 ∫ − ∞ ∞ e − x 2 d x = π \int_{-\infty}^{\infty} e^{-x^2} \mathrm{d} x = \sqrt{\pi} ex2dx=π 的证明

I = ∫ − ∞ ∞ exp ⁡ ( − x 2 ) d x I = \int_{-\infty}^\infty \exp (-x^2 ) \mathrm{d}x I=exp(x2)dx

则有

I 2 = ∫ − ∞ ∞ exp ⁡ ( − x 2 ) d x ∫ − ∞ ∞ exp ⁡ ( − y 2 ) d y = ∫ − ∞ ∞ ∫ − ∞ ∞ exp ⁡ ( − x 2 − y 2 ) d x d y \begin{aligned} I^2 &= \int_{-\infty}^\infty \exp (-x^2 ) \mathrm{d}x \int_{-\infty}^\infty \exp (-y^2 ) \mathrm{d}y\\ &=\int_{-\infty}^\infty\int_{-\infty}^\infty \exp (-x^2-y^2 )\mathrm{d}x\mathrm{d}y \end{aligned} I2=exp(x2)dxexp(y2)dy=exp(x2y2)dxdy

又令 x = r cos ⁡ θ x=r\cos\theta x=rcosθ y = r sin ⁡ θ y=r\sin\theta y=rsinθ ,则有

I 2 = ∫ − ∞ ∞ ∫ − ∞ ∞ exp ⁡ ( − x 2 − y 2 ) d x d y = ∫ 0 2 π ∫ 0 ∞ exp ⁡ ( − r 2 ) r d r d θ = ∫ 0 2 π d θ ∫ 0 ∞ exp ⁡ ( − r 2 ) r d r = − π ∫ 0 ∞ exp ⁡ ( − r 2 ) d ( − r 2 ) = − π [ exp ⁡ ( − r 2 ) ] 0 ∞ = π \begin{aligned} I^2 &=\int_{-\infty}^\infty\int_{-\infty}^\infty \exp (-x^2-y^2 )\mathrm{d}x\mathrm{d}y \\ &= \int_0^{2\pi}\int_0^\infty \exp (-r^2)r\mathrm{d}r\mathrm{d}\theta \\ &= \int_0^{2\pi} \mathrm{d}\theta \int_0^\infty \exp (-r^2)r\mathrm{d}r \\ &= -\pi \int_0^\infty \exp (-r^2)\mathrm{d}(-r^2)\\ &= -\pi \left[ \exp (-r^2) \right]_0^{\infty}\\ &= \pi \end{aligned} I2=exp(x2y2)dxdy=02π0exp(r2)rdrdθ=02πdθ0exp(r2)rdr=π0exp(r2)d(r2)=π[exp(r2)]0=π

故有

I = ∫ − ∞ ∞ exp ⁡ ( − x 2 ) d x = π I = \int_{-\infty}^\infty \exp (-x^2 ) \mathrm{d}x= \sqrt{\pi} I=exp(x2)dx=π

2. 均值的推导

E [ x ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x d x = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ x exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } d x = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ ( x − μ ) exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } + μ exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } d ( x − μ ) = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ z exp ⁡ { − 1 2 σ 2 z 2 } + μ exp ⁡ { − 1 2 σ 2 z 2 } d z 这里使用 z = x − μ 进行代换 = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ z exp ⁡ { − 1 2 σ 2 z 2 } d z + 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ μ exp ⁡ { − 1 2 σ 2 z 2 } d z 第一项为奇函数,在对称区间上的定积分为0 = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ μ exp ⁡ { − 1 2 σ 2 z 2 } d z = μ ∫ − ∞ ∞ 1 ( 2 π σ 2 ) 1 / 2 exp ⁡ { − 1 2 σ 2 z 2 } d z = μ ∫ − ∞ ∞ N ( z ∣ 0 , σ 2 ) d z = μ \begin{aligned} \mathbb{E}[x] &= \int_{-\infty}^\infty \mathcal{N}(x|\mu,\sigma^2)x\mathrm{d}x\\ &= \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty x \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2\right\} \mathrm{d}x\\ &= \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty (x-\mu) \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2\right\} + \mu \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2\right\} \mathrm{d}(x-\mu)\\ &= \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty z \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} + \mu \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} \mathrm{d}z \quad \text{这里使用$z=x-\mu$进行代换}\\ &= \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty z \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} \mathrm{d}z + \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty \mu \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} \mathrm{d}z \quad \text{第一项为奇函数,在对称区间上的定积分为0}\\ &= \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty \mu \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} \mathrm{d}z\\ &= \mu \int_{-\infty}^\infty \frac{1}{(2\pi\sigma^2)^{1/2}} \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} \mathrm{d}z\\ &= \mu \int_{-\infty}^\infty \mathcal{N}(z|0,\sigma^2)\mathrm{d}z\\ &= \mu \end{aligned} E[x]=N(xμ,σ2)xdx=(2πσ2)1/21xexp{2σ21(xμ)2}dx=(2πσ2)1/21(xμ)exp{2σ21(xμ)2}+μexp{2σ21(xμ)2}d(xμ)=(2πσ2)1/21zexp{2σ21z2}+μexp{2σ21z2}dz这里使用z=xμ进行代换=(2πσ2)1/21zexp{2σ21z2}dz+(2πσ2)1/21μexp{2σ21z2}dz第一项为奇函数,在对称区间上的定积分为0=(2πσ2)1/21μexp{2σ21z2}dz=μ(2πσ2)1/21exp{2σ21z2}dz=μN(z0,σ2)dz=μ

3. 方差的推导

为书写方便,令 σ 2 = t \sigma^2 =t σ2=t ( 1.48 ) (1.48) (1.48) 式左边对 t t t 求微分

∂ ∂ t ∫ − ∞ ∞ N ( x ∣ μ , t ) d x = ∫ − ∞ ∞ ∂ ∂ t N ( x ∣ μ , t ) d x = ∫ − ∞ ∞ ∂ ∂ t ( 1 ( 2 π t ) 1 / 2 exp ⁡ { − 1 2 t ( x − μ ) 2 } ) d x = 1 2 π ∫ − ∞ ∞ ∂ ∂ t ( t − 1 / 2 exp ⁡ { − t − 1 2 ( x − μ ) 2 } ) d x \begin{aligned} \frac{\partial}{\partial t} \int_{-\infty}^\infty \mathcal{N}(x|\mu,t) \mathrm{d}x &= \int_{-\infty}^\infty \frac{\partial}{\partial t}\mathcal{N}(x|\mu,t) \mathrm{d}x \\ &= \int_{-\infty}^\infty \frac{\partial}{\partial t}\left(\frac{1}{(2 \pi t)^{1/2}} \exp \left\{ -\frac{1}{2t}(x-\mu)^2 \right\} \right) \mathrm{d}x \\ &= \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^\infty \frac{\partial}{\partial t} \left( t^{-1/2} \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \right) \mathrm{d}x \end{aligned} tN(xμ,t)dx=tN(xμ,t)dx=t((2πt)1/21exp{2t1(xμ)2})dx=2π 1t(t1/2exp{2t1(xμ)2})dx

因为

∂ ∂ t ( t − 1 / 2 exp ⁡ { − t − 1 2 ( x − μ ) 2 } ) = ∂ t − 1 / 2 ∂ t exp ⁡ { − t − 1 2 ( x − μ ) 2 } + t − 1 / 2 ∂ ∂ t exp ⁡ { − t − 1 2 ( x − μ ) 2 } = − 1 2 t − 3 / 2 exp ⁡ { − t − 1 2 ( x − μ ) 2 } + ( x − μ ) 2 2 t − 5 / 2 exp ⁡ { − t − 1 2 ( x − μ ) 2 } = 1 2 t − 3 / 2 [ ( x − μ ) 2 t − 1 − 1 ] exp ⁡ { − t − 1 2 ( x − μ ) 2 } \begin{aligned} \frac{\partial}{\partial t} \left( t^{-1/2} \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \right) &= \frac{\partial t^{-1/2}}{\partial t} \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\}+ t^{-1/2} \frac{\partial}{\partial t} \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\}\\ &= -\frac{1}{2} t^{-3/2}\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} + \frac{(x-\mu)^2}{2} t^{-5/2} \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \\ &= \frac{1}{2} t^{-3/2} \left[(x-\mu)^2t^{-1}-1\right]\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \end{aligned} t(t1/2exp{2t1(xμ)2})=tt1/2exp{2t1(xμ)2}+t1/2texp{2t1(xμ)2}=21t3/2exp{2t1(xμ)2}+2(xμ)2t5/2exp{2t1(xμ)2}=21t3/2[(xμ)2t11]exp{2t1(xμ)2}

于是,有

∂ ∂ t ∫ − ∞ ∞ N ( x ∣ μ , t ) d x = 1 2 π ∫ − ∞ ∞ 1 2 t − 3 / 2 [ ( x − μ ) 2 t − 1 − 1 ] exp ⁡ { − t − 1 2 ( x − μ ) 2 } d x = 1 2 π 1 2 t − 3 / 2 ∫ − ∞ ∞ [ ( x − μ ) 2 t − 1 − 1 ] exp ⁡ { − t − 1 2 ( x − μ ) 2 } d x \begin{aligned} \frac{\partial}{\partial t} \int_{-\infty}^\infty \mathcal{N}(x|\mu,t) \mathrm{d}x &= \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^\infty \frac{1}{2} t^{-3/2} \left[(x-\mu)^2t^{-1}-1\right]\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x \\ &= \frac{1}{\sqrt{2 \pi}} \frac{1}{2} t^{-3/2}\int_{-\infty}^\infty \left[(x-\mu)^2t^{-1}-1\right]\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x \end{aligned} tN(xμ,t)dx=2π 121t3/2[(xμ)2t11]exp{2t1(xμ)2}dx=2π 121t3/2[(xμ)2t11]exp{2t1(xμ)2}dx

因为 ( 1.48 ) (1.48) (1.48) 式右边的微分等于零,即

∂ ∂ t ∫ − ∞ ∞ N ( x ∣ μ , t ) d x = 1 2 π 1 2 t − 3 / 2 ∫ − ∞ ∞ [ ( x − μ ) 2 t − 1 − 1 ] exp ⁡ { − t − 1 2 ( x − μ ) 2 } d x = 0 \frac{\partial}{\partial t} \int_{-\infty}^\infty \mathcal{N}(x|\mu,t) \mathrm{d}x = \frac{1}{\sqrt{2 \pi}} \frac{1}{2} t^{-3/2}\int_{-\infty}^\infty \left[(x-\mu)^2t^{-1}-1\right]\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x=0 tN(xμ,t)dx=2π 121t3/2[(xμ)2t11]exp{2t1(xμ)2}dx=0

∫ − ∞ ∞ [ ( x − μ ) 2 t − 1 − 1 ] exp ⁡ { − t − 1 2 ( x − μ ) 2 } d x = 0 t − 1 ∫ − ∞ ∞ ( x − μ ) 2 exp ⁡ { − t − 1 2 ( x − μ ) 2 } d x = ∫ − ∞ ∞ exp ⁡ { − t − 1 2 ( x − μ ) 2 } d x t − 1 ∫ − ∞ ∞ ( x − μ ) 2 1 2 π t exp ⁡ { − t − 1 2 ( x − μ ) 2 } d x = ∫ − ∞ ∞ 1 2 π t exp ⁡ { − t − 1 2 ( x − μ ) 2 } d x \begin{aligned} \int_{-\infty}^\infty \left[(x-\mu)^2t^{-1}-1\right]\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x &=0\\ t^{-1} \int_{-\infty}^\infty (x-\mu)^2\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x &= \int_{-\infty}^\infty \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x \\ t^{-1} \int_{-\infty}^\infty (x-\mu)^2 \frac{1}{\sqrt{2\pi t}}\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x &= \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi t}}\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x \end{aligned} [(xμ)2t11]exp{2t1(xμ)2}dxt1(xμ)2exp{2t1(xμ)2}dxt1(xμ)22πt 1exp{2t1(xμ)2}dx=0=exp{2t1(xμ)2}dx=2πt 1exp{2t1(xμ)2}dx

t t t 换回 σ 2 \sigma^2 σ2 :

σ − 2 ∫ − ∞ ∞ ( x − μ ) 2 1 2 π σ 2 exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } d x = ∫ − ∞ ∞ 1 2 π σ 2 exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } d x σ − 2 ∫ − ∞ ∞ ( x − μ ) 2 N ( x ∣ μ , σ 2 ) d x = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) d x σ − 2 E [ ( x − μ ) 2 ] = 1 左边项用了函数期望的定义,右边项用了概率密度函数的标准化条件 E [ ( x − μ ) 2 ] = σ 2 \begin{aligned} \sigma^{-2} \int_{-\infty}^\infty (x-\mu)^2 \frac{1}{\sqrt{2\pi \sigma^2}}\exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right\} \mathrm{d}x &= \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi \sigma^2}}\exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right\} \mathrm{d}x \\ \sigma^{-2} \int_{-\infty}^{\infty} (x-\mu)^2\mathcal{N}(x|\mu,\sigma^2) \mathrm{d}x &= \int_{-\infty}^{\infty} \mathcal{N}(x|\mu,\sigma^2) \mathrm{d}x \\ \sigma^{-2} \mathbb{E}[(x-\mu)^2] &= 1 \quad\text{左边项用了函数期望的定义,右边项用了概率密度函数的标准化条件}\\ \mathbb{E}[(x-\mu)^2] &= \sigma^2 \\ \end{aligned} σ2(xμ)22πσ2 1exp{2σ21(xμ)2}dxσ2(xμ)2N(xμ,σ2)dxσ2E[(xμ)2]E[(xμ)2]=2πσ2 1exp{2σ21(xμ)2}dx=N(xμ,σ2)dx=1左边项用了函数期望的定义,右边项用了概率密度函数的标准化条件=σ2

σ 2 = E [ ( x − μ ) 2 ] = v a r [ x ] = E [ x 2 − 2 x μ + μ 2 ] = E [ x 2 ] − 2 μ E [ x ] + μ 2 = E [ x 2 ] − 2 μ 2 + μ 2 = E [ x 2 ] − μ 2 \begin{aligned} \sigma^2 = \mathbb{E}[(x-\mu)^2]= \mathrm{var}[x] &= \mathbb{E}[x^2-2x\mu + \mu^2] \\ &=\mathbb{E}[x^2]-2\mu \mathbb{E}[x] +\mu^2 \\ &= \mathbb{E}[x^2]-2\mu^2 +\mu^2 \\ &= \mathbb{E}[x^2] - \mu^2 \end{aligned} σ2=E[(xμ)2]=var[x]=E[x22xμ+μ2]=E[x2]2μE[x]+μ2=E[x2]2μ2+μ2=E[x2]μ2

(1.50) E [ x 2 ] = σ 2 + μ 2 \mathbb{E}[x^2] = \sigma^2 + \mu^2 \tag{1.50} E[x2]=σ2+μ2(1.50)

最终得

v a r [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2 + μ 2 − μ 2 = σ 2 \begin{aligned} \mathrm{var}[x] &= \mathbb{E}[x^2] - \mathbb{E}[x]^2\\ &= \sigma^2 + \mu^2 - \mu^2\\ &= \sigma^2 \end{aligned} var[x]=E[x2]E[x]2=σ2+μ2μ2=σ2

注:关于 v a r [ x ] = E [ x 2 ] − E [ x ] 2 \mathrm{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2 var[x]=E[x2]E[x]2 的证明

(1.40) v a r [ x ] = E [ ( x − E [ x ] ) 2 ] = E [ x 2 − 2 x E [ x ] + E [ x ] 2 ] = E [ x 2 ] − 2 E [ x ] 2 + E [ x ] 2 期望算子是线性算子 = E [ x 2 ] − E [ x ] 2 \begin{aligned} \mathrm{var}[x] &= \mathbb{E}\left[(x-\mathbb{E}[x])^2\right]\\ &= \mathbb{E}\left[x^2-2x\mathbb{E}[x]+\mathbb{E}[x]^2\right]\\ &= \mathbb{E}[x^2] - 2\mathbb{E}[x]^2 + \mathbb{E}[x]^2 \quad \text{期望算子是线性算子}\\ &= \mathbb{E}[x^2] - \mathbb{E}[x]^2 \tag{1.40} \end{aligned} var[x]=E[(xE[x])2]=E[x22xE[x]+E[x]2]=E[x2]2E[x]2+E[x]2期望算子是线性算子=E[x2]E[x]2(1.40)

4. 均值和方差的最大似然估计推导

设数据集 X = { x 1 , x 2 , ⋯   , x N } \mathcal{X} = \{x_1,x_2,\cdots,x_N\} X={x1,x2,,xN} 中的样本是独立同分布的,服从 N ( x ∣ μ , σ 2 ) \mathcal{N}(x|\mu,\sigma^2) N(xμ,σ2) 。因此,有

(1.53) p ( X ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) N / 2 exp ⁡ { ∑ n = 1 N − 1 2 σ 2 ( x n − μ ) 2 } p(\mathcal{X}|\mu,\sigma^2) = \prod_{n=1}^N \mathcal{N}(x_n|\mu,\sigma^2) =\frac{1}{(2\pi\sigma^2)^{N/2}} \exp \left\{\sum_{n=1}^N -\frac{1}{2\sigma^2}(x_n-\mu)^2\right\} \tag{1.53} p(Xμ,σ2)=n=1NN(xnμ,σ2)=(2πσ2)N/21exp{n=1N2σ21(xnμ)2}(1.53)

两边取对数,得

(1.54) ln ⁡ p ( X ∣ μ , σ 2 ) = − N 2 ln ⁡ 2 π − N 2 ln ⁡ σ 2 − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 \ln p(\mathcal{X}|\mu,\sigma^2) = -\frac{N}{2} \ln 2\pi -\frac{N}{2} \ln \sigma^2 -\frac{1}{2\sigma^2} \sum_{n=1}^N (x_n-\mu)^2 \tag{1.54} lnp(Xμ,σ2)=2Nln2π2Nlnσ22σ21n=1N(xnμ)2(1.54)

∂ ln ⁡ p ( X ∣ μ , σ 2 ) ∂ μ = − 1 2 σ 2 ∑ n = 1 N ∂ ( x n − μ ) 2 ∂ μ = 1 σ 2 ∑ n = 1 N ( x n − μ ) = 0 \frac{\partial \ln p(\mathcal{X}|\mu,\sigma^2)}{\partial \mu} = -\frac{1}{2\sigma^2} \sum_{n=1}^N \frac{\partial (x_n-\mu)^2}{\partial \mu} = \frac{1}{\sigma^2} \sum_{n=1}^N (x_n-\mu) = 0 μlnp(Xμ,σ2)=2σ21n=1Nμ(xnμ)2=σ21n=1N(xnμ)=0

∑ n = 1 N ( x n − μ M L ) = ∑ n = 1 N x n − N μ M L = 0 \sum_{n=1}^N (x_n-\mu_{ML}) = \sum_{n=1}^N x_n - N\mu_{ML}=0 n=1N(xnμML)=n=1NxnNμML=0

(1.55) μ M L = 1 N ∑ n = 1 N x n \mu_{ML} = \frac{1}{N} \sum_{n=1}^N x_n \tag{1.55} μML=N1n=1Nxn(1.55)

∂ ln ⁡ p ( X ∣ μ M L , σ 2 ) ∂ σ 2 = − N 2 σ 2 + 1 2 σ 4 ∑ n = 1 N ( x n − μ M L ) 2 = 0 \frac{\partial \ln p(\mathcal{X}|\mu_{ML},\sigma^2)}{\partial \sigma^2} = -\frac{N}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{n=1}^N (x_n-\mu_{ML})^2 = 0 σ2lnp(XμML,σ2)=2σ2N+2σ41n=1N(xnμML)2=0

(1.56) σ M L 2 = 1 N ∑ n = 1 N ( x n − μ M L ) 2 \sigma^2_{ML} = \frac{1}{N} \sum_{n=1}^N (x_n-\mu_{ML})^2 \tag{1.56} σML2=N1n=1N(xnμML)2(1.56)

注:均值的最大似然估计是无偏的,方差的最大似然估计是渐进无偏的

均值最大似然估计的无偏性
(1.57) E [ μ M L ] = E [ 1 N ∑ n = 1 N x n ] = 1 N ∑ n = 1 N E [ x n ] = μ \mathbb{E}[\mu_{ML}] = \mathbb{E}[\frac{1}{N} \sum_{n=1}^N x_n] = \frac{1}{N} \sum_{n=1}^N \mathbb{E}[x_n] = \mu \tag{1.57} E[μML]=E[N1n=1Nxn]=N1n=1NE[xn]=μ(1.57)

方差最大似然估计的渐进无偏性

(1.58) E [ σ M L 2 ] = E [ 1 N ∑ n = 1 N ( x n − μ M L ) 2 ] = E [ 1 N ∑ i = 1 N ( x i − 1 N ∑ j = 1 N x j ) 2 ] = 1 N ∑ i = 1 N E [ ( x i − 1 N ∑ j = 1 N x j ) 2 ] = 1 N ∑ i = 1 N E [ x i 2 − 2 N x i ∑ j = 1 N x j + 1 N 2 ( ∑ j = 1 N x j ) 2 ] = 1 N ∑ i = 1 N { E [ x i 2 ] − 2 N E [ x i ∑ j = 1 N x j ] + 1 N 2 E [ ( ∑ j = 1 N x j ) 2 ] } = 1 N ∑ i = 1 N { ( σ 2 + μ 2 ) − 2 N ( N μ 2 + σ 2 ) + 1 N 2 ( N 2 μ 2 + N σ 2 ) } = 1 N ∑ i = 1 N { N − 1 N σ 2 } = N − 1 N σ 2 \begin{aligned} \mathbb{E}[\sigma^2_{ML}] &= \mathbb{E}[\frac{1}{N} \sum_{n=1}^N (x_n-\mu_{ML})^2]\\ &= \mathbb{E}[\frac{1}{N} \sum_{i=1}^N (x_i-\frac{1}{N} \sum_{j=1}^N x_j)^2]\\ &= \frac{1}{N} \sum_{i=1}^N \mathbb{E}\left[ (x_i-\frac{1}{N} \sum_{j=1}^N x_j)^2 \right]\\ &= \frac{1}{N} \sum_{i=1}^N \mathbb{E}\left[ x_i^2 - \frac{2}{N} x_i \sum_{j=1}^N x_j+\frac{1}{N^2} \left(\sum_{j=1}^N x_j\right)^2 \right]\\ &= \frac{1}{N} \sum_{i=1}^N \left\{\mathbb{E}[x_i^2] - \frac{2}{N}\mathbb{E}\left[x_i \sum_{j=1}^N x_j\right] + \frac{1}{N^2} \mathbb{E}\left[\left(\sum_{j=1}^N x_j\right)^2 \right]\right\}\\ &= \frac{1}{N} \sum_{i=1}^N \left\{ (\sigma^2 + \mu^2) - \frac{2}{N}(N\mu^2+\sigma^2)+ \frac{1}{N^2}(N^2\mu^2 + N\sigma^2) \right\}\\ &= \frac{1}{N} \sum_{i=1}^N \left\{ \frac{N-1}{N}\sigma^2\right\}\\ &= \frac{N-1}{N}\sigma^2 \end{aligned} \tag{1.58} E[σML2]=E[N1n=1N(xnμML)2]=E[N1i=1N(xiN1j=1Nxj)2]=N1i=1NE[(xiN1j=1Nxj)2]=N1i=1NExi2N2xij=1Nxj+N21(j=1Nxj)2=N1i=1NE[xi2]N2E[xij=1Nxj]+N21E(j=1Nxj)2=N1i=1N{(σ2+μ2)N2(Nμ2+σ2)+N21(N2μ2+Nσ2)}=N1i=1N{NN1σ2}=NN1σ2(1.58)

lim ⁡ N → ∞ E [ σ M L 2 ] = lim ⁡ N → ∞ [ N − 1 N σ 2 ] = σ 2 \lim_{N \to \infty} \mathbb{E}[\sigma^2_{ML}] = \lim_{N \to \infty} \left[\frac{N-1}{N}\sigma^2\right] = \sigma^2 NlimE[σML2]=Nlim[NN1σ2]=σ2

上面的推导中用到了两个结论:一是式 ( 1.50 ) (1.50) (1.50),二是独立随机变量的乘积的期望等于它们各自期望的乘积。

关于单变量高斯分布的推导就写这些吧,应该是把原书中相关公式的来龙去脉推清楚了。

若有什么地方写错了或者没写清楚,欢迎留言指正!

下一篇准备推导一下《Pattern Recognition and Machine Learning》第一章中关于曲线拟合的那些东西。

你可能感兴趣的:(算法详解,机器学习的事)