(斯坦福机器学习课程笔记)混合高斯模型,朴素贝叶斯,混合朴素贝叶斯模型,因子分析

==============================混合高斯模型==========================
混合高斯模型是一个无监督的聚类算法,他认为各个类别的样本都分别服从高斯分布。因此隐变量依然为 zji ,模型的参数有 μ , ϕ , σ ,其中 σ 是协方差矩阵。
那么引入EM算法,得到
E步骤:

Qi(zji)=P(zji | xi;ϕ,σ,μ)=P(xi | zji;μ,σ)P(zji;ϕ)kj=1P(xi | zji;μ,σ)P(zji;ϕ)

M步骤:

argmaxϕ,μ,σi=1mj=1kQi(zji)logP(xi,zji;ϕ,μ,σ)Qi(zji)

上式分别对 ϕ,μ,σ 求导,并令求导式等于0,得

ϕj:=1mi=1mQi(zji)

μj:=mi=1Qi(zji)ximi=1Qi(zji)

σj:=mi=1Qi(zji)(xiμj)(xiμj)Tmi=1Qi(zji)

=============================朴素贝叶斯=============================
前面课程中用过朴素贝叶斯模型来对信件分类,这里简要作笔记。
首先建立一个词库,例如建立一个10000个单词的词库,那么对于任意信件,都可以用10000个二进制来表示,1代表该单词在信件中出现过,0代表未出现。那么有

P(y=1 | x)=P(x | y=1)P(y=1)p(x)

根据朴素贝叶斯的假设,各特征独立,有
P(y=1 | x)=mi=1P(xi | y=1)P(y=1)p(x)

其中 P(x) 是不用管的,因为各个类别的值都相同。 P(y=1) mi=1P(xi | y=1) 的值在训练时统计得出。
值得一提的是,对于训练样本中未出现的单词,要用拉普拉斯平滑作处理,否则会得出分类概率为0的错误结果。

===============================混合朴素贝叶斯=======================
跟朴素贝叶斯不同,混合朴素贝叶斯是无监督算法,样本是没有标签的,因此需要估算标签z(作为隐变量)和参数( ϕz,ϕj | z=1,ϕj | z=0
E步骤:

Qi(zji)=P(zi=1 | xi;ϕz,ϕj | z)=P(xi | zi=1)P(zi=1)1j=0P(xi | zi=j)P(zi=j)

M步骤:
argmaxϕ,μ,σi=1mj=1kQi(zji)logP(xi,zji;ϕz,ϕj | z)Qi(zji)

分别对 ϕz,ϕj | z=1,ϕj | z=0 求导并令求导式为0,得:
ϕz:=mi=1Qi(zji)m

ϕj | z=1:=mi=1Qi(zji)1{xij=1}mi=1Qi(zji)

ϕj | z=0:=mi=1(1Qi(zji))1{xij=1}mi=11Qi(zji)

============================因子分析===============================
因子分析是一种降维方法,因子分析认为,高维度的样本点 {xi} 是服从高斯分布的, xi 可由低维度的服从 N(0,1) f分布的点,通过线性映射,并加入噪声来表达,即

x=μ+λz+ϵ

其中, μ 不是x的均值,线性映射后的均值,加上 μ 等于 x 的均值, λ 是线性映射的矩阵, ϵ 是误差,服从 N(0,ϕ) ,z是低维度的点,服从 N(0,1) 。一旦我们把 Z,μ,ϵ,λ 都估计出来后,就可以用低维度的Z来表达高维度的X,降低样本的特征数量。

你可能感兴趣的:(机器学习,机器学习)