机器学习-白板推导学习笔记-2高斯分布

 本篇文章是根据视频( link.)所作的学习笔记,旨在对机器学习的相关知识更好的理解和巩固。本人基础较弱,推导中看不懂的公式可能会细究,如果有理解不当之处也欢迎指出。

一维高斯分布

设Data为X=(x_{1},x_{2},...x_{N}),且服从高斯分布,即x_{i}\sim N(\mu ,\sigma ^{2})。对应的概率密度函数为:

P(X)=\frac{1}{\sqrt{2\pi }\sigma }exp[-\frac{(x-\mu )^{2}}{2\sigma ^{2}}]

 为了对参数(\mu ,\sigma ^{2})进行更好的估计,将概率密度函数进一步展开:

Log P(X|\theta )\\=Log\prod_{i=1}^{N}P(x_{i}|\theta )\\ =\sum_{i=1}^{N}LogP(x_{i}|\theta )\\ =\sum_{i=1}^{N}Log\frac{1}{\sqrt{2\pi }\sigma }exp[-\frac{(x-\mu )^{2}}{2\sigma ^{2}}]\\ =\sum_{i=1}^{N}[Log\frac{1}{\sqrt{2\pi }}+Log\frac{1}{\sigma }-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}]

 求解参数(\mu ,\sigma ^{2})时,往往是求其极值。利用求偏导等于0。对于参数\mu

\frac{\partial P}{\partial \mu }=\frac{\partial \sum_{i=1}^{N}[-\frac{(x^{i}-\mu )^{2}}{2\sigma ^{2}}]}{\partial \mu }=\sum_{i=1}^{N}(\mu -x_{i})=0

\sum_{i=1}^{N}\mu=\sum_{i=1}^{N}x_{i}

\: \: \: \: \mu =\frac{1}{N}\sum_{i=1}^{N}x_{i}

 对于参数\sigma ^{2}

\frac{\partial P}{\partial \sigma }=\frac{\partial \sum_{i=1}^{N}[Log\frac{1}{\sigma } -\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}]}{\partial \sigma }=\sum_{i=1}^{N}[-\frac{1}{\sigma }-\frac{(x_{i}-\mu )^{2}}{2}\cdot (-2)\cdot \sigma ^{-3}]=0

\sum_{i=1}^{N}\frac{1}{\sigma }=\sum_{i=1}^{N}(x_{i}-\mu )^{2}\cdot \sigma ^{-3}\\

\sum_{i=1}^{N}\sigma ^{2}=\sum_{i=1}^{N}(x_{i}-\mu )^{2}

\therefore \: \: \sigma _{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2}

 无偏和有偏

通常,被估计量的数学期望如果等于被估参数的真实值,则称为无偏估计;反之,称为有偏估计。下面来分析高斯分布中利用极大似然估计MLE出的参数(\mu ,\sigma ^{2})是有无误差:

E[\mu _{MLE}]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}]=\frac{1}{N}\sum_{i=1}^{N}E[x_{i}]=\frac{1}{N}\sum_{i=1}^{N}\mu =\mu

E[\sigma _{MLE}^{2}]=E[\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2}]=\frac{N-1}{N}\sigma ^{2}

 通过上面两个公式可以得到,对于参数\mu,得到的是无偏估计;而对于参数\sigma ^{2}得到的有偏估计,估计小了。

多维高斯分布

(这里没听太明白,只把一些结论记录下来)

当数据服从p维高斯分布时,参数\mu\sigma ^{2}不再是一个单数的数,而是矩阵的形式。

X\sim N(\mu ,\Sigma ),其中\mu =(\mu _{1},\mu _{2},...,\mu _{p})^{T}\Sigma =\begin{bmatrix} \sigma _{11}& \sigma _{12}& ...& \sigma _{1p} \\ \sigma _{21}& \sigma _{22}& ...& \sigma _{2p} \\ ...& ...& ...& ...\\ \sigma _{p1}& \sigma _{p2} & ...& \sigma _{pp} \end{bmatrix}_{p\times p},对应的概率密度函数为:

P(X)=\frac{1}{(2\pi) ^{\frac{p}{2}}|\Sigma |^{\frac{1}{2}}}exp[-\frac{1}{2}(x-\mu )^{T}\Sigma ^{-1}(x-\mu )]

 其中,\Sigma也叫做协方差矩阵,具有对称性质,且通常假设为正定矩阵(为了进行奇异值分解)。

· 概率密度函数P(X)中的-\frac{1}{2}(x-\mu )^{T}\Sigma ^{-1}(x-\mu )也叫做马氏距离(x\mu之间的),当\Sigma =I时,可表示欧氏距离。

·  当p=2时,即服从二维高斯分布,每一个对应的概率值都对应一个椭圆(也就是说的等高线):

机器学习-白板推导学习笔记-2高斯分布_第1张图片

·  还有一个定理:

 若x\sim (\mu ,\Sigma )y=Ax+B,则y\sim N(A\mu +B,A\Sigma A^{T})

你可能感兴趣的:(机器学习,学习笔记,机器学习,人工智能)