==============================混合高斯模型==========================
混合高斯模型是一个无监督的聚类算法,他认为各个类别的样本都分别服从高斯分布。因此隐变量依然为 zji ,模型的参数有 μ , ϕ , σ ,其中 σ 是协方差矩阵。
那么引入EM算法,得到
E步骤:
Qi(zji)=P(zji | xi;ϕ,σ,μ)=P(xi | zji;μ,σ)P(zji;ϕ)∑kj=1P(xi | zji;μ,σ)P(zji;ϕ)
M步骤:
argmaxϕ,μ,σ∑i=1m∑j=1kQi(zji)logP(xi,zji;ϕ,μ,σ)Qi(zji)
上式分别对 ϕ,μ,σ 求导,并令求导式等于0,得
ϕj:=1m∑i=1mQi(zji)
μj:=∑mi=1Qi(zji)xi∑mi=1Qi(zji)
σj:=∑mi=1Qi(zji)(xi−μj)(xi−μj)T∑mi=1Qi(zji)
=============================朴素贝叶斯=============================
前面课程中用过朴素贝叶斯模型来对信件分类,这里简要作笔记。
首先建立一个词库,例如建立一个10000个单词的词库,那么对于任意信件,都可以用10000个二进制来表示,1代表该单词在信件中出现过,0代表未出现。那么有
P(y=1 | x)=P(x | y=1)P(y=1)p(x)
根据朴素贝叶斯的假设,各特征独立,有
P(y=1 | x)=∏mi=1P(xi | y=1)P(y=1)p(x)
其中
P(x) 是不用管的,因为各个类别的值都相同。
P(y=1) 和
∏mi=1P(xi | y=1) 的值在训练时统计得出。
值得一提的是,对于训练样本中未出现的单词,要用拉普拉斯平滑作处理,否则会得出分类概率为0的错误结果。
===============================混合朴素贝叶斯=======================
跟朴素贝叶斯不同,混合朴素贝叶斯是无监督算法,样本是没有标签的,因此需要估算标签z(作为隐变量)和参数( ϕz,ϕj | z=1,ϕj | z=0 )
E步骤:
Qi(zji)=P(zi=1 | xi;ϕz,ϕj | z)=P(xi | zi=1)P(zi=1)∑1j=0P(xi | zi=j)P(zi=j)
M步骤:
argmaxϕ,μ,σ∑i=1m∑j=1kQi(zji)logP(xi,zji;ϕz,ϕj | z)Qi(zji)
分别对
ϕz,ϕj | z=1,ϕj | z=0 求导并令求导式为0,得:
ϕz:=∑mi=1Qi(zji)m
ϕj | z=1:=∑mi=1Qi(zji)1{xij=1}∑mi=1Qi(zji)
ϕj | z=0:=∑mi=1(1−Qi(zji))1{xij=1}∑mi=11−Qi(zji)
============================因子分析===============================
因子分析是一种降维方法,因子分析认为,高维度的样本点 {xi} 是服从高斯分布的, xi 可由低维度的服从 N(0,1) f分布的点,通过线性映射,并加入噪声来表达,即
x=μ+λz+ϵ
其中,
μ 不是x的均值,线性映射后的均值,加上
μ 等于
x 的均值,
λ 是线性映射的矩阵,
ϵ 是误差,服从
N(0,ϕ) ,z是低维度的点,服从
N(0,1) 。一旦我们把
Z,μ,ϵ,λ 都估计出来后,就可以用低维度的Z来表达高维度的X,降低样本的特征数量。