单变量高斯分布定义为:
(1.46) N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 / 2 exp { − 1 2 σ 2 ( x − μ ) 2 } \mathcal{N}(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}} \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2\right\} \tag{1.46} N(x∣μ,σ2)=(2πσ2)1/21exp{−2σ21(x−μ)2}(1.46)
(1.48) ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) d x = 1 \int_{-\infty}^\infty \mathcal{N}(x|\mu,\sigma^2) \mathrm{d}x = 1 \tag{1.48} ∫−∞∞N(x∣μ,σ2)dx=1(1.48)
∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) d x = ∫ − ∞ ∞ 1 ( 2 π σ 2 ) 1 / 2 exp { − 1 2 σ 2 ( x − μ ) 2 } d x = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ exp { − 1 2 σ 2 ( x − μ ) 2 } d x = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ exp { − 1 2 ( x − μ σ ) 2 } d x = 1 ( 2 π σ 2 ) 1 / 2 σ ∫ − ∞ ∞ exp { − 1 2 ( x − μ σ ) 2 } d x − μ σ = 1 ( 2 π ) 1 / 2 ∫ − ∞ ∞ exp ( − 1 2 t 2 ) d t 这里使用 t = x − μ σ 进行代换 = 1 ( 2 π ) 1 / 2 2 ∫ − ∞ ∞ exp [ − ( t 2 ) 2 ] d t 2 = 1 π ∫ − ∞ ∞ exp ( − z 2 ) d z = 1 \begin{aligned} \int_{-\infty}^\infty \mathcal{N}(x|\mu,\sigma^2) \mathrm{d}x &= \int_{-\infty}^\infty \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right\} \mathrm{d}x \\ &= \frac{1}{(2 \pi \sigma^2)^{1/2}} \int_{-\infty}^\infty \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right\} \mathrm{d}x \\ &= \frac{1}{(2 \pi \sigma^2)^{1/2}} \int_{-\infty}^\infty \exp \left\{ -\frac{1}{2}(\frac{x-\mu}{\sigma})^2 \right\} \mathrm{d}x \\ &= \frac{1}{(2 \pi \sigma^2)^{1/2}} \sigma \int_{-\infty}^\infty \exp \left\{ -\frac{1}{2}(\frac{x-\mu}{\sigma})^2 \right\} \mathrm{d}\frac{x-\mu}{\sigma} \\ &= \frac{1}{(2 \pi )^{1/2}}\int_{-\infty}^\infty \exp \left( -\frac{1}{2}t^2 \right) \mathrm{d}t \quad \text{这里使用$t=\frac{x-\mu}{\sigma}$进行代换 }\\ &= \frac{1}{(2 \pi )^{1/2}} \sqrt{2} \int_{-\infty}^\infty \exp \left[ -\left(\frac{t}{\sqrt{2}}\right)^2 \right] \mathrm{d}\frac{t}{\sqrt{2}} \\ &= \frac{1}{\sqrt{\pi}} \int_{-\infty}^\infty \exp (-z^2 ) \mathrm{d}z \\ &= 1 \end{aligned} ∫−∞∞N(x∣μ,σ2)dx=∫−∞∞(2πσ2)1/21exp{−2σ21(x−μ)2}dx=(2πσ2)1/21∫−∞∞exp{−2σ21(x−μ)2}dx=(2πσ2)1/21∫−∞∞exp{−21(σx−μ)2}dx=(2πσ2)1/21σ∫−∞∞exp{−21(σx−μ)2}dσx−μ=(2π)1/21∫−∞∞exp(−21t2)dt这里使用t=σx−μ进行代换 =(2π)1/212∫−∞∞exp[−(2t)2]d2t=π1∫−∞∞exp(−z2)dz=1
注:关于 ∫ − ∞ ∞ e − x 2 d x = π \int_{-\infty}^{\infty} e^{-x^2} \mathrm{d} x = \sqrt{\pi} ∫−∞∞e−x2dx=π 的证明
令
I = ∫ − ∞ ∞ exp ( − x 2 ) d x I = \int_{-\infty}^\infty \exp (-x^2 ) \mathrm{d}x I=∫−∞∞exp(−x2)dx
则有
I 2 = ∫ − ∞ ∞ exp ( − x 2 ) d x ∫ − ∞ ∞ exp ( − y 2 ) d y = ∫ − ∞ ∞ ∫ − ∞ ∞ exp ( − x 2 − y 2 ) d x d y \begin{aligned} I^2 &= \int_{-\infty}^\infty \exp (-x^2 ) \mathrm{d}x \int_{-\infty}^\infty \exp (-y^2 ) \mathrm{d}y\\ &=\int_{-\infty}^\infty\int_{-\infty}^\infty \exp (-x^2-y^2 )\mathrm{d}x\mathrm{d}y \end{aligned} I2=∫−∞∞exp(−x2)dx∫−∞∞exp(−y2)dy=∫−∞∞∫−∞∞exp(−x2−y2)dxdy
又令 x = r cos θ x=r\cos\theta x=rcosθ , y = r sin θ y=r\sin\theta y=rsinθ ,则有
I 2 = ∫ − ∞ ∞ ∫ − ∞ ∞ exp ( − x 2 − y 2 ) d x d y = ∫ 0 2 π ∫ 0 ∞ exp ( − r 2 ) r d r d θ = ∫ 0 2 π d θ ∫ 0 ∞ exp ( − r 2 ) r d r = − π ∫ 0 ∞ exp ( − r 2 ) d ( − r 2 ) = − π [ exp ( − r 2 ) ] 0 ∞ = π \begin{aligned} I^2 &=\int_{-\infty}^\infty\int_{-\infty}^\infty \exp (-x^2-y^2 )\mathrm{d}x\mathrm{d}y \\ &= \int_0^{2\pi}\int_0^\infty \exp (-r^2)r\mathrm{d}r\mathrm{d}\theta \\ &= \int_0^{2\pi} \mathrm{d}\theta \int_0^\infty \exp (-r^2)r\mathrm{d}r \\ &= -\pi \int_0^\infty \exp (-r^2)\mathrm{d}(-r^2)\\ &= -\pi \left[ \exp (-r^2) \right]_0^{\infty}\\ &= \pi \end{aligned} I2=∫−∞∞∫−∞∞exp(−x2−y2)dxdy=∫02π∫0∞exp(−r2)rdrdθ=∫02πdθ∫0∞exp(−r2)rdr=−π∫0∞exp(−r2)d(−r2)=−π[exp(−r2)]0∞=π
故有
I = ∫ − ∞ ∞ exp ( − x 2 ) d x = π I = \int_{-\infty}^\infty \exp (-x^2 ) \mathrm{d}x= \sqrt{\pi} I=∫−∞∞exp(−x2)dx=π
E [ x ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x d x = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ x exp { − 1 2 σ 2 ( x − μ ) 2 } d x = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ ( x − μ ) exp { − 1 2 σ 2 ( x − μ ) 2 } + μ exp { − 1 2 σ 2 ( x − μ ) 2 } d ( x − μ ) = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ z exp { − 1 2 σ 2 z 2 } + μ exp { − 1 2 σ 2 z 2 } d z 这里使用 z = x − μ 进行代换 = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ z exp { − 1 2 σ 2 z 2 } d z + 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ μ exp { − 1 2 σ 2 z 2 } d z 第一项为奇函数,在对称区间上的定积分为0 = 1 ( 2 π σ 2 ) 1 / 2 ∫ − ∞ ∞ μ exp { − 1 2 σ 2 z 2 } d z = μ ∫ − ∞ ∞ 1 ( 2 π σ 2 ) 1 / 2 exp { − 1 2 σ 2 z 2 } d z = μ ∫ − ∞ ∞ N ( z ∣ 0 , σ 2 ) d z = μ \begin{aligned} \mathbb{E}[x] &= \int_{-\infty}^\infty \mathcal{N}(x|\mu,\sigma^2)x\mathrm{d}x\\ &= \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty x \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2\right\} \mathrm{d}x\\ &= \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty (x-\mu) \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2\right\} + \mu \exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2\right\} \mathrm{d}(x-\mu)\\ &= \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty z \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} + \mu \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} \mathrm{d}z \quad \text{这里使用$z=x-\mu$进行代换}\\ &= \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty z \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} \mathrm{d}z + \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty \mu \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} \mathrm{d}z \quad \text{第一项为奇函数,在对称区间上的定积分为0}\\ &= \frac{1}{(2\pi\sigma^2)^{1/2}} \int_{-\infty}^\infty \mu \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} \mathrm{d}z\\ &= \mu \int_{-\infty}^\infty \frac{1}{(2\pi\sigma^2)^{1/2}} \exp \left\{ -\frac{1}{2\sigma^2}z^2\right\} \mathrm{d}z\\ &= \mu \int_{-\infty}^\infty \mathcal{N}(z|0,\sigma^2)\mathrm{d}z\\ &= \mu \end{aligned} E[x]=∫−∞∞N(x∣μ,σ2)xdx=(2πσ2)1/21∫−∞∞xexp{−2σ21(x−μ)2}dx=(2πσ2)1/21∫−∞∞(x−μ)exp{−2σ21(x−μ)2}+μexp{−2σ21(x−μ)2}d(x−μ)=(2πσ2)1/21∫−∞∞zexp{−2σ21z2}+μexp{−2σ21z2}dz这里使用z=x−μ进行代换=(2πσ2)1/21∫−∞∞zexp{−2σ21z2}dz+(2πσ2)1/21∫−∞∞μexp{−2σ21z2}dz第一项为奇函数,在对称区间上的定积分为0=(2πσ2)1/21∫−∞∞μexp{−2σ21z2}dz=μ∫−∞∞(2πσ2)1/21exp{−2σ21z2}dz=μ∫−∞∞N(z∣0,σ2)dz=μ
为书写方便,令 σ 2 = t \sigma^2 =t σ2=t, ( 1.48 ) (1.48) (1.48) 式左边对 t t t 求微分
∂ ∂ t ∫ − ∞ ∞ N ( x ∣ μ , t ) d x = ∫ − ∞ ∞ ∂ ∂ t N ( x ∣ μ , t ) d x = ∫ − ∞ ∞ ∂ ∂ t ( 1 ( 2 π t ) 1 / 2 exp { − 1 2 t ( x − μ ) 2 } ) d x = 1 2 π ∫ − ∞ ∞ ∂ ∂ t ( t − 1 / 2 exp { − t − 1 2 ( x − μ ) 2 } ) d x \begin{aligned} \frac{\partial}{\partial t} \int_{-\infty}^\infty \mathcal{N}(x|\mu,t) \mathrm{d}x &= \int_{-\infty}^\infty \frac{\partial}{\partial t}\mathcal{N}(x|\mu,t) \mathrm{d}x \\ &= \int_{-\infty}^\infty \frac{\partial}{\partial t}\left(\frac{1}{(2 \pi t)^{1/2}} \exp \left\{ -\frac{1}{2t}(x-\mu)^2 \right\} \right) \mathrm{d}x \\ &= \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^\infty \frac{\partial}{\partial t} \left( t^{-1/2} \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \right) \mathrm{d}x \end{aligned} ∂t∂∫−∞∞N(x∣μ,t)dx=∫−∞∞∂t∂N(x∣μ,t)dx=∫−∞∞∂t∂((2πt)1/21exp{−2t1(x−μ)2})dx=2π1∫−∞∞∂t∂(t−1/2exp{−2t−1(x−μ)2})dx
因为
∂ ∂ t ( t − 1 / 2 exp { − t − 1 2 ( x − μ ) 2 } ) = ∂ t − 1 / 2 ∂ t exp { − t − 1 2 ( x − μ ) 2 } + t − 1 / 2 ∂ ∂ t exp { − t − 1 2 ( x − μ ) 2 } = − 1 2 t − 3 / 2 exp { − t − 1 2 ( x − μ ) 2 } + ( x − μ ) 2 2 t − 5 / 2 exp { − t − 1 2 ( x − μ ) 2 } = 1 2 t − 3 / 2 [ ( x − μ ) 2 t − 1 − 1 ] exp { − t − 1 2 ( x − μ ) 2 } \begin{aligned} \frac{\partial}{\partial t} \left( t^{-1/2} \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \right) &= \frac{\partial t^{-1/2}}{\partial t} \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\}+ t^{-1/2} \frac{\partial}{\partial t} \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\}\\ &= -\frac{1}{2} t^{-3/2}\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} + \frac{(x-\mu)^2}{2} t^{-5/2} \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \\ &= \frac{1}{2} t^{-3/2} \left[(x-\mu)^2t^{-1}-1\right]\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \end{aligned} ∂t∂(t−1/2exp{−2t−1(x−μ)2})=∂t∂t−1/2exp{−2t−1(x−μ)2}+t−1/2∂t∂exp{−2t−1(x−μ)2}=−21t−3/2exp{−2t−1(x−μ)2}+2(x−μ)2t−5/2exp{−2t−1(x−μ)2}=21t−3/2[(x−μ)2t−1−1]exp{−2t−1(x−μ)2}
于是,有
∂ ∂ t ∫ − ∞ ∞ N ( x ∣ μ , t ) d x = 1 2 π ∫ − ∞ ∞ 1 2 t − 3 / 2 [ ( x − μ ) 2 t − 1 − 1 ] exp { − t − 1 2 ( x − μ ) 2 } d x = 1 2 π 1 2 t − 3 / 2 ∫ − ∞ ∞ [ ( x − μ ) 2 t − 1 − 1 ] exp { − t − 1 2 ( x − μ ) 2 } d x \begin{aligned} \frac{\partial}{\partial t} \int_{-\infty}^\infty \mathcal{N}(x|\mu,t) \mathrm{d}x &= \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^\infty \frac{1}{2} t^{-3/2} \left[(x-\mu)^2t^{-1}-1\right]\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x \\ &= \frac{1}{\sqrt{2 \pi}} \frac{1}{2} t^{-3/2}\int_{-\infty}^\infty \left[(x-\mu)^2t^{-1}-1\right]\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x \end{aligned} ∂t∂∫−∞∞N(x∣μ,t)dx=2π1∫−∞∞21t−3/2[(x−μ)2t−1−1]exp{−2t−1(x−μ)2}dx=2π121t−3/2∫−∞∞[(x−μ)2t−1−1]exp{−2t−1(x−μ)2}dx
因为 ( 1.48 ) (1.48) (1.48) 式右边的微分等于零,即
∂ ∂ t ∫ − ∞ ∞ N ( x ∣ μ , t ) d x = 1 2 π 1 2 t − 3 / 2 ∫ − ∞ ∞ [ ( x − μ ) 2 t − 1 − 1 ] exp { − t − 1 2 ( x − μ ) 2 } d x = 0 \frac{\partial}{\partial t} \int_{-\infty}^\infty \mathcal{N}(x|\mu,t) \mathrm{d}x = \frac{1}{\sqrt{2 \pi}} \frac{1}{2} t^{-3/2}\int_{-\infty}^\infty \left[(x-\mu)^2t^{-1}-1\right]\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x=0 ∂t∂∫−∞∞N(x∣μ,t)dx=2π121t−3/2∫−∞∞[(x−μ)2t−1−1]exp{−2t−1(x−μ)2}dx=0
即
∫ − ∞ ∞ [ ( x − μ ) 2 t − 1 − 1 ] exp { − t − 1 2 ( x − μ ) 2 } d x = 0 t − 1 ∫ − ∞ ∞ ( x − μ ) 2 exp { − t − 1 2 ( x − μ ) 2 } d x = ∫ − ∞ ∞ exp { − t − 1 2 ( x − μ ) 2 } d x t − 1 ∫ − ∞ ∞ ( x − μ ) 2 1 2 π t exp { − t − 1 2 ( x − μ ) 2 } d x = ∫ − ∞ ∞ 1 2 π t exp { − t − 1 2 ( x − μ ) 2 } d x \begin{aligned} \int_{-\infty}^\infty \left[(x-\mu)^2t^{-1}-1\right]\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x &=0\\ t^{-1} \int_{-\infty}^\infty (x-\mu)^2\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x &= \int_{-\infty}^\infty \exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x \\ t^{-1} \int_{-\infty}^\infty (x-\mu)^2 \frac{1}{\sqrt{2\pi t}}\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x &= \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi t}}\exp \left\{ -\frac{t^{-1}}{2}(x-\mu)^2 \right\} \mathrm{d}x \end{aligned} ∫−∞∞[(x−μ)2t−1−1]exp{−2t−1(x−μ)2}dxt−1∫−∞∞(x−μ)2exp{−2t−1(x−μ)2}dxt−1∫−∞∞(x−μ)22πt1exp{−2t−1(x−μ)2}dx=0=∫−∞∞exp{−2t−1(x−μ)2}dx=∫−∞∞2πt1exp{−2t−1(x−μ)2}dx
将 t t t 换回 σ 2 \sigma^2 σ2 :
σ − 2 ∫ − ∞ ∞ ( x − μ ) 2 1 2 π σ 2 exp { − 1 2 σ 2 ( x − μ ) 2 } d x = ∫ − ∞ ∞ 1 2 π σ 2 exp { − 1 2 σ 2 ( x − μ ) 2 } d x σ − 2 ∫ − ∞ ∞ ( x − μ ) 2 N ( x ∣ μ , σ 2 ) d x = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) d x σ − 2 E [ ( x − μ ) 2 ] = 1 左边项用了函数期望的定义,右边项用了概率密度函数的标准化条件 E [ ( x − μ ) 2 ] = σ 2 \begin{aligned} \sigma^{-2} \int_{-\infty}^\infty (x-\mu)^2 \frac{1}{\sqrt{2\pi \sigma^2}}\exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right\} \mathrm{d}x &= \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi \sigma^2}}\exp \left\{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right\} \mathrm{d}x \\ \sigma^{-2} \int_{-\infty}^{\infty} (x-\mu)^2\mathcal{N}(x|\mu,\sigma^2) \mathrm{d}x &= \int_{-\infty}^{\infty} \mathcal{N}(x|\mu,\sigma^2) \mathrm{d}x \\ \sigma^{-2} \mathbb{E}[(x-\mu)^2] &= 1 \quad\text{左边项用了函数期望的定义,右边项用了概率密度函数的标准化条件}\\ \mathbb{E}[(x-\mu)^2] &= \sigma^2 \\ \end{aligned} σ−2∫−∞∞(x−μ)22πσ21exp{−2σ21(x−μ)2}dxσ−2∫−∞∞(x−μ)2N(x∣μ,σ2)dxσ−2E[(x−μ)2]E[(x−μ)2]=∫−∞∞2πσ21exp{−2σ21(x−μ)2}dx=∫−∞∞N(x∣μ,σ2)dx=1左边项用了函数期望的定义,右边项用了概率密度函数的标准化条件=σ2
又
σ 2 = E [ ( x − μ ) 2 ] = v a r [ x ] = E [ x 2 − 2 x μ + μ 2 ] = E [ x 2 ] − 2 μ E [ x ] + μ 2 = E [ x 2 ] − 2 μ 2 + μ 2 = E [ x 2 ] − μ 2 \begin{aligned} \sigma^2 = \mathbb{E}[(x-\mu)^2]= \mathrm{var}[x] &= \mathbb{E}[x^2-2x\mu + \mu^2] \\ &=\mathbb{E}[x^2]-2\mu \mathbb{E}[x] +\mu^2 \\ &= \mathbb{E}[x^2]-2\mu^2 +\mu^2 \\ &= \mathbb{E}[x^2] - \mu^2 \end{aligned} σ2=E[(x−μ)2]=var[x]=E[x2−2xμ+μ2]=E[x2]−2μE[x]+μ2=E[x2]−2μ2+μ2=E[x2]−μ2
即
(1.50) E [ x 2 ] = σ 2 + μ 2 \mathbb{E}[x^2] = \sigma^2 + \mu^2 \tag{1.50} E[x2]=σ2+μ2(1.50)
最终得
v a r [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2 + μ 2 − μ 2 = σ 2 \begin{aligned} \mathrm{var}[x] &= \mathbb{E}[x^2] - \mathbb{E}[x]^2\\ &= \sigma^2 + \mu^2 - \mu^2\\ &= \sigma^2 \end{aligned} var[x]=E[x2]−E[x]2=σ2+μ2−μ2=σ2
注:关于 v a r [ x ] = E [ x 2 ] − E [ x ] 2 \mathrm{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2 var[x]=E[x2]−E[x]2 的证明
(1.40) v a r [ x ] = E [ ( x − E [ x ] ) 2 ] = E [ x 2 − 2 x E [ x ] + E [ x ] 2 ] = E [ x 2 ] − 2 E [ x ] 2 + E [ x ] 2 期望算子是线性算子 = E [ x 2 ] − E [ x ] 2 \begin{aligned} \mathrm{var}[x] &= \mathbb{E}\left[(x-\mathbb{E}[x])^2\right]\\ &= \mathbb{E}\left[x^2-2x\mathbb{E}[x]+\mathbb{E}[x]^2\right]\\ &= \mathbb{E}[x^2] - 2\mathbb{E}[x]^2 + \mathbb{E}[x]^2 \quad \text{期望算子是线性算子}\\ &= \mathbb{E}[x^2] - \mathbb{E}[x]^2 \tag{1.40} \end{aligned} var[x]=E[(x−E[x])2]=E[x2−2xE[x]+E[x]2]=E[x2]−2E[x]2+E[x]2期望算子是线性算子=E[x2]−E[x]2(1.40)
设数据集 X = { x 1 , x 2 , ⋯   , x N } \mathcal{X} = \{x_1,x_2,\cdots,x_N\} X={x1,x2,⋯,xN} 中的样本是独立同分布的,服从 N ( x ∣ μ , σ 2 ) \mathcal{N}(x|\mu,\sigma^2) N(x∣μ,σ2) 。因此,有
(1.53) p ( X ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) N / 2 exp { ∑ n = 1 N − 1 2 σ 2 ( x n − μ ) 2 } p(\mathcal{X}|\mu,\sigma^2) = \prod_{n=1}^N \mathcal{N}(x_n|\mu,\sigma^2) =\frac{1}{(2\pi\sigma^2)^{N/2}} \exp \left\{\sum_{n=1}^N -\frac{1}{2\sigma^2}(x_n-\mu)^2\right\} \tag{1.53} p(X∣μ,σ2)=n=1∏NN(xn∣μ,σ2)=(2πσ2)N/21exp{n=1∑N−2σ21(xn−μ)2}(1.53)
两边取对数,得
(1.54) ln p ( X ∣ μ , σ 2 ) = − N 2 ln 2 π − N 2 ln σ 2 − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 \ln p(\mathcal{X}|\mu,\sigma^2) = -\frac{N}{2} \ln 2\pi -\frac{N}{2} \ln \sigma^2 -\frac{1}{2\sigma^2} \sum_{n=1}^N (x_n-\mu)^2 \tag{1.54} lnp(X∣μ,σ2)=−2Nln2π−2Nlnσ2−2σ21n=1∑N(xn−μ)2(1.54)
令
∂ ln p ( X ∣ μ , σ 2 ) ∂ μ = − 1 2 σ 2 ∑ n = 1 N ∂ ( x n − μ ) 2 ∂ μ = 1 σ 2 ∑ n = 1 N ( x n − μ ) = 0 \frac{\partial \ln p(\mathcal{X}|\mu,\sigma^2)}{\partial \mu} = -\frac{1}{2\sigma^2} \sum_{n=1}^N \frac{\partial (x_n-\mu)^2}{\partial \mu} = \frac{1}{\sigma^2} \sum_{n=1}^N (x_n-\mu) = 0 ∂μ∂lnp(X∣μ,σ2)=−2σ21n=1∑N∂μ∂(xn−μ)2=σ21n=1∑N(xn−μ)=0
即
∑ n = 1 N ( x n − μ M L ) = ∑ n = 1 N x n − N μ M L = 0 \sum_{n=1}^N (x_n-\mu_{ML}) = \sum_{n=1}^N x_n - N\mu_{ML}=0 n=1∑N(xn−μML)=n=1∑Nxn−NμML=0
(1.55) μ M L = 1 N ∑ n = 1 N x n \mu_{ML} = \frac{1}{N} \sum_{n=1}^N x_n \tag{1.55} μML=N1n=1∑Nxn(1.55)
令
∂ ln p ( X ∣ μ M L , σ 2 ) ∂ σ 2 = − N 2 σ 2 + 1 2 σ 4 ∑ n = 1 N ( x n − μ M L ) 2 = 0 \frac{\partial \ln p(\mathcal{X}|\mu_{ML},\sigma^2)}{\partial \sigma^2} = -\frac{N}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{n=1}^N (x_n-\mu_{ML})^2 = 0 ∂σ2∂lnp(X∣μML,σ2)=−2σ2N+2σ41n=1∑N(xn−μML)2=0
得
(1.56) σ M L 2 = 1 N ∑ n = 1 N ( x n − μ M L ) 2 \sigma^2_{ML} = \frac{1}{N} \sum_{n=1}^N (x_n-\mu_{ML})^2 \tag{1.56} σML2=N1n=1∑N(xn−μML)2(1.56)
注:均值的最大似然估计是无偏的,方差的最大似然估计是渐进无偏的
均值最大似然估计的无偏性
(1.57) E [ μ M L ] = E [ 1 N ∑ n = 1 N x n ] = 1 N ∑ n = 1 N E [ x n ] = μ \mathbb{E}[\mu_{ML}] = \mathbb{E}[\frac{1}{N} \sum_{n=1}^N x_n] = \frac{1}{N} \sum_{n=1}^N \mathbb{E}[x_n] = \mu \tag{1.57} E[μML]=E[N1n=1∑Nxn]=N1n=1∑NE[xn]=μ(1.57)
方差最大似然估计的渐进无偏性
(1.58) E [ σ M L 2 ] = E [ 1 N ∑ n = 1 N ( x n − μ M L ) 2 ] = E [ 1 N ∑ i = 1 N ( x i − 1 N ∑ j = 1 N x j ) 2 ] = 1 N ∑ i = 1 N E [ ( x i − 1 N ∑ j = 1 N x j ) 2 ] = 1 N ∑ i = 1 N E [ x i 2 − 2 N x i ∑ j = 1 N x j + 1 N 2 ( ∑ j = 1 N x j ) 2 ] = 1 N ∑ i = 1 N { E [ x i 2 ] − 2 N E [ x i ∑ j = 1 N x j ] + 1 N 2 E [ ( ∑ j = 1 N x j ) 2 ] } = 1 N ∑ i = 1 N { ( σ 2 + μ 2 ) − 2 N ( N μ 2 + σ 2 ) + 1 N 2 ( N 2 μ 2 + N σ 2 ) } = 1 N ∑ i = 1 N { N − 1 N σ 2 } = N − 1 N σ 2 \begin{aligned} \mathbb{E}[\sigma^2_{ML}] &= \mathbb{E}[\frac{1}{N} \sum_{n=1}^N (x_n-\mu_{ML})^2]\\ &= \mathbb{E}[\frac{1}{N} \sum_{i=1}^N (x_i-\frac{1}{N} \sum_{j=1}^N x_j)^2]\\ &= \frac{1}{N} \sum_{i=1}^N \mathbb{E}\left[ (x_i-\frac{1}{N} \sum_{j=1}^N x_j)^2 \right]\\ &= \frac{1}{N} \sum_{i=1}^N \mathbb{E}\left[ x_i^2 - \frac{2}{N} x_i \sum_{j=1}^N x_j+\frac{1}{N^2} \left(\sum_{j=1}^N x_j\right)^2 \right]\\ &= \frac{1}{N} \sum_{i=1}^N \left\{\mathbb{E}[x_i^2] - \frac{2}{N}\mathbb{E}\left[x_i \sum_{j=1}^N x_j\right] + \frac{1}{N^2} \mathbb{E}\left[\left(\sum_{j=1}^N x_j\right)^2 \right]\right\}\\ &= \frac{1}{N} \sum_{i=1}^N \left\{ (\sigma^2 + \mu^2) - \frac{2}{N}(N\mu^2+\sigma^2)+ \frac{1}{N^2}(N^2\mu^2 + N\sigma^2) \right\}\\ &= \frac{1}{N} \sum_{i=1}^N \left\{ \frac{N-1}{N}\sigma^2\right\}\\ &= \frac{N-1}{N}\sigma^2 \end{aligned} \tag{1.58} E[σML2]=E[N1n=1∑N(xn−μML)2]=E[N1i=1∑N(xi−N1j=1∑Nxj)2]=N1i=1∑NE[(xi−N1j=1∑Nxj)2]=N1i=1∑NE⎣⎡xi2−N2xij=1∑Nxj+N21(j=1∑Nxj)2⎦⎤=N1i=1∑N⎩⎨⎧E[xi2]−N2E[xij=1∑Nxj]+N21E⎣⎡(j=1∑Nxj)2⎦⎤⎭⎬⎫=N1i=1∑N{(σ2+μ2)−N2(Nμ2+σ2)+N21(N2μ2+Nσ2)}=N1i=1∑N{NN−1σ2}=NN−1σ2(1.58)
故
lim N → ∞ E [ σ M L 2 ] = lim N → ∞ [ N − 1 N σ 2 ] = σ 2 \lim_{N \to \infty} \mathbb{E}[\sigma^2_{ML}] = \lim_{N \to \infty} \left[\frac{N-1}{N}\sigma^2\right] = \sigma^2 N→∞limE[σML2]=N→∞lim[NN−1σ2]=σ2
上面的推导中用到了两个结论:一是式 ( 1.50 ) (1.50) (1.50),二是独立随机变量的乘积的期望等于它们各自期望的乘积。
关于单变量高斯分布的推导就写这些吧,应该是把原书中相关公式的来龙去脉推清楚了。
若有什么地方写错了或者没写清楚,欢迎留言指正!
下一篇准备推导一下《Pattern Recognition and Machine Learning》第一章中关于曲线拟合的那些东西。