潜变量模型

Bishop C M. Latent variable models[M]//Learning in graphical models. Springer Netherlands, 1998: 371-403.

1. Density modelling

密度估计是机器学习中的一个主要任务。通常,最常用的办法就是极大似然估计(MLE),假设我们有一个数据集 D=t1,t2...tn ,包含了n个样本。最常用的高斯函数,就可以通过下式给出:

p(t|μ,Σ)=(2π)d/2Σ1/2exp(0.5(tμ)Σ1(tμ)T)
这样,我们就可以建立一个似然函数
L(μ,Σ)=sumNn=1lnp(tn|μ,Σ)
直接对 L(μ,Σ) 求导,也就是整个函数的极大似然估计。
然而,直接对似然函数求导有一个很大的问题,那就是 Σ 是一个维度非常高的数,直接进行求导,计算量相当大。因此,就有人想到了,是不是能通过一个什么的力量x,这个x可以支配多个t,如果我们找到了这个x的分布,就可以结合t和x的联合分布来确定t。

2. latent variable

已知了我们的数据有n个t,那么这个时候我们需要一组神奇的变量x,,他看不见摸不到,但是却实际的决定了每个t的状态,所以,我们把这个变量称为潜变量,潜在的变量,看不见的变量,潜水的变量。。。。。
这样,我们就可以得到一个潜变量和原始变量的联合分布

p(t,x)=p(x)p(t|x)=p(x)i=1dp(ti|x)
这样,我们就建立了一个潜变量和样本之间的关系
t=y(x;w)+u
其中u是一个噪声。
我们通过对潜变量的边界积分,就可以获得数据的分布 p(t)
p(t)=p(t|x)p(x)dx
对于混合高斯分布,除了要求解分布之外还需要求解权重,所以就要用EM

3. Probabilistic Principal Component Analysis

假设我们的数据集t共有N个样本,每个样本d维,则我们可以求解整个样本的协方差矩阵S

S=1Nn=1N(tnμ)(tnμ)T

根据PCA的公式可知:
Svj=λjvj
所以t的q维主成分可以表示为:
un=VT(tnμ)


未完待续

你可能感兴趣的:(autoencoder,机器学习)