Chapter 11 EM算法

1 复习

Jensen不等式:

假设f为凸函数:

f(\theta x+(1-\theta )y) \leq \theta f(x) +(1-\theta )f(y)  

  • \theta_{1} ,\theta_{2} ,...\theta_{k}\geq 0,\theta _{1}+\theta _{2}+...+\theta _{k}=1,则f(\theta _{1}x_{1}+...+\theta _{k}x_{k})\leq \theta _{1}f(x_{1})+...+\theta _{k}f(x_{k})
  • p(x)\geq 0 on S\subseteq dom f, \int_{S}^{}p(x)dx=1,则f(\int_{S}^{}p(x)xdx)\leq \int_{S}^{}f(x)p(x)dx
  • 综上所述:f(Ex)\leq Ef(x)

2 推导 

问题:若给定一组样本x_{1},x_{2}...x_{n},已知它们来自于高斯分布N(\mu ,\sigma ),试估计参数\mu ,\sigma

过程分析:高斯分布的概率密度函数:f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}},将X_{i}的样本值x_{i}代入,得到:

L(x)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}},然后化简对数似然函数l(x)=log\prod_{i}\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}}=\sum_{i}log\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}}=(\sum_{i}log\frac{1}{\sqrt{2\pi }\sigma })+(\sum_{i}-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}})=-\frac{n}{2}log(2\pi \sigma ^{2})-\frac{1}{2\sigma ^{2}}\sum_{i}(x_{i}-\mu )^{2}

讨论:目标函数为l(x) = -\frac{n}{2}log(2\pi \sigma ^{2})-\frac{1}{2\sigma ^{2}}\sum_{i}(x_{i}-\mu )^{2},然后对参数\mu ,\sigma分别求偏导,得到:\left\{\begin{matrix} \mu =\frac{1}{n}\sum_{i}x_{i}\\ \sigma ^{2}=\frac{1}{n}\sum_{i}(x_{i}-\mu )^{2} \end{matrix}\right.,即样本的均值是高斯分布的均值,样本的伪方差是高斯分布的方差。

3 高斯混合模型(GMM模型)

随机变量X是有K个高斯分布混合而成,取各个高斯分布的概率为\pi _{1},\pi _{2},...,\pi _{K},第i个高斯分布的均值为\mu _{i},方差为\sum_{i}。若观测到随机变量X的一系列样本x_{1},x_{2},...,x_{n},试估计\pi ,\mu ,\sum

首先,建立目标函数

Chapter 11 EM算法_第1张图片

 由于该对数函数比较复杂,无法直接求导。所以,分成两部分进行:

step1:估算数据来自哪个组份。

Chapter 11 EM算法_第2张图片

step2:估计每个组份的参数

Chapter 11 EM算法_第3张图片

 4 EM算法的提出

假定有训练集\left \{ x^{(1)},x^{(2)},...,x^{(m)} \right \},包含m个独立样本,希望从中找到该组数据的模型p(x,z)的参数。

step1:取对数似然函数l(\theta )=\sum_{i=1}^{m}logp(x;\theta )=\sum_{i=1}^{m}log\sum_{z}p(x,z;\theta )

step2:提出问题:不方便求参数估计?

Chapter 11 EM算法_第4张图片

 step3:利用Jensen不等式

Chapter 11 EM算法_第5张图片

 说明最后的不等式:

忽略求和,令\frac{p(x^{(i)},z^{(i)};\theta )}{Q_{i}(z^{(i)})}=x,不等式变为log\sum_{z^{(i)}}Q_{i}(z^{(i)})x\geq \sum_{z^{(i)}}Q_{i}(z^{(i)})logx

logE_{Q}(x)\geq E(logx)

为了使等号成立:

\frac{p(x^{(i)},z^{(i)};\theta )}{Q_{i}(z^{(i)})}=c

Chapter 11 EM算法_第6张图片

 EM算法推导高斯分布: 

E-step:

第i个样本属于第j个组份的概率

Chapter 11 EM算法_第7张图片

 M-step:

Chapter 11 EM算法_第8张图片

对均值\mu求偏导:

高斯分布求得均值:

Chapter 11 EM算法_第9张图片

 同上面求均值做法,求得高斯分布的偏差:

多项分布的参数

Chapter 11 EM算法_第10张图片

拉格朗日乘子法

Chapter 11 EM算法_第11张图片

Chapter 11 EM算法_第12张图片 上式-\beta =m的具体推导:

由求偏导公式,化简得:\sum_{i=1}^{m}w_{i}^{j}+\beta \phi _{j}=0

将j展开再合并得到:\sum_{i=1}^{m}\sum_{j=1}^{k}w_{j}^{i}+\beta \sum_{j=1}^{k}\phi _{j}=0

因为\sum_{j=1}^{k}\phi _{j}=1

所以m+\beta =0

总结:

Chapter 11 EM算法_第13张图片

6 pLSA模型

基于概率统计的pLSA模型(概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型系数。

Chapter 11 EM算法_第14张图片

 D——文档,Z——主题(隐含类别)W——单词

P(d_{i})表示文档d_{i}的出现概率。

P(z_{k}|d_{i})表示文档d_{i}中主题z_{k}的出现概率。

P(w_{j}|z_{k})表示给定主题z_{k}出现单词w_{j}的概率。

每个主题在所有词项上服从多项分布,每个文档在所有主题上服从多项分布。

整个文档的生成过程是:先以P(d_{i})的概率选中文档,然后以P(z_{k}|d_{i})的概率选中主题,最后以P(w_{j}|z_{k})的概率产生单词。

观测数据为(d_{i},w_{j})时,主题z_{k}是隐含变量。

(d_{i},w_{j})的联合分布为:P(d_{i},w_{j})=P(w_{j}|d_{i})P(d_{i})P(w_{j}|d_{i})=\sum_{k=1}^{K}P(w_{j}|z_{k})P(z_{k}|d_{i})

w_{j}d_{i}中出现的次数n(d_{i},w_{j})

所以L=\prod_{i=1}^{N}\prod_{j=1}^{M}P(d_{i},w_{j})=\prod_{i}\prod_{j}P(d_{i},w_{j})^{n(d_{i},w_{j})}

对其取对数:

l=\sum_{i}\sum_{j}n(d_{i},w_{j})logP(d_{i},w_{j})=\sum_{i}\sum_{j}n(d_{i},w_{j})logP(w_{j}|d_{i})P(d_{i})=\sum_{i}\sum_{j}n(d_{i},w_{j})log(\sum_{k=1}^{K}P(w_{j}|z_{k})P(z_{k}|d_{i}))P(d_{i})=\sum_{i}\sum_{j}n(d_{i},w_{j})log(\sum_{k=1}^{K}P(w_{j}|z_{k})P(z_{k}|d_{i})P(d_{i}))

Chapter 11 EM算法_第15张图片

 Chapter 11 EM算法_第16张图片

 Chapter 11 EM算法_第17张图片

 

7 模型选择的准则

模型选择问题主要是寻找平衡模型的复杂性和模型对数据集描述能力之间的平衡,有以下两种。

L为模型下的样本的似然函数值,k为模型中位置参数的个数(维度),n为样本个数。

AIC:最小信息量准则AIC=-2lnL+2k衡量模型拟合优良性的标准,AIC越小,模型越简洁,模型越好。
BIC:贝叶斯信息准则BIC=-2lnL+(lnn)k,BIC越小,模型越好。BIC弥补了AIC的不足,当样本数量过多时,对于模型参数个数的惩罚项k,因为加入了ln(n)考虑了样本数量,从而可以避免模型精度过高造成模型复杂度过高。

你可能感兴趣的:(机器学习——算法进阶,html,前端)