首先,Wiahsrt分布是用来刻画协方差矩阵统计量概率分布的一个分布,记作 W(Σ,d,n) 其中n代表构成协方差矩阵的样本数目,d代表样本维度, Σ 代表方差。
假设有总体 A1,A2,...,AG 其中每一个总体都符合P维的正态分布,即有:
Ai∼N(μi,Σi)
那么,对于其中某个总体
Ai 来说,如果在其中取k个样本
Xi1,Xi2,...,xik ,其统计量。
X^i=1k∑j=1kXij=f1(X^i|μi,Σi;Ai)
Vi=∑j=1k(Xij−X^i)(Xij−X^i)T=f2(Vi|μi,Σi;Ai)
可以知道,这两个统计量满足:
X^i∼N(μin1kΣi)
Vi∼Wp(ni−1,Σi)
其中
Wp(ni−1,Σi) 为一个逆Wishrat分布,其分布为:
IWp(v,H)=f(w|v,H)=k|H|v/2|w|(v+p+1)/2exp[−tr(w−1H)]
k=[2vpπp(p−1)/4∏i=1pΓ(v−i+12)]−1
所以,可以得到似然函数:
L(X^i,Vi|μi,Σi)=f1(X^i|μi,Σi;Ai)f2(Vi|μi,Σi;Ai)
=k|H|v/2|w|(v+p+1)/2exp[−tr(w−1H)]
可以看出,似然函数的分布与正态-逆Wishart分布具有相同的形式,这样,由于正态-逆Wishart分布的共轭分布仍然是正态-逆Wishart分布,因此,可以选取如下形式的正态-逆Wishart分布作为参数
μi,Σi 的先验分布。
π(μi,Σi)=π(μi|Σi)π(Σi)
π(μi|Σi)=1(2π)p/2|Σi|p/2exp[−b12(μi−ai)TΣ−1i(μi−ai)]
π(Σi)=|Hi|vi/2xvip/2πp(p−1)/4∏pj=0Γ(vi+1−j2)|Σi|(vI+p+1)/2exp(−12trΣ−1Ht)
所以可以推算得到后验分布密度:
π(μi,Σi|X^i,Vi;Ai)∝(X^i,Vi|μi,Σi;Ai)π(μi,Σi)
看到这里,读者可能会产生一些疑问,这个共轭分布的概念是什么,又是如何运用的呢。在贝叶斯公式中 P(A|B)=P(B|A)P(A)P(B) ,概率理解为由以下几个部分构成:
先验概率: P(A)
似然概率: P(B|A)
后验概率: P(A|B)
如果先验分布和似然函数可以使得先验分布和后验分布有相同的形式,那么就称先验分布与似然函数是共轭的。如果这个共轭关系存在,那么我们就可以把每一次的后验估计结果作为下一次的先验信息,从而使用一个概率链来说明概率之间的依赖关系。
现在,我们已经通过期望和方差的统计量,推算除了其后验概率公式。当然,我们可以直接通过代入真实分布的真实期望与真实方差来计算当前当前样本属于某个分布的概率,但是,问题在于一般情况下,我们只能够从某一个分布中采集样本,但是并不知道该分布的真实情况,也就是说该分布的均值和方差都是从我们得到的样本之中得到的。并不是真实的,也就只是一个估计嘛。所以,我们需要更强有力的手段来达到我们的目的。而且,在很多情况下我们需要判断的是某一个样本是否属于某一个类别,这种情况不管是均值统计还是方差统计都是不现实的,从而,我们的问题:
f(Z|μi,Σi;Ai)
可以表述为:
∫μi∈R∫Σi>0f(Z|μi,Σi;Ai)π(μi,Σi|X^i,Vi,;Ai)dμIdΣi∝∫μi∈R∫Σi>0N(Z|μi,Σi)π(μi,Σi|X^i,Vi,;Ai)dμIdΣi=∫μi∈R∫Σi>01|Σi|(n1+v1+2p+2)/2exp{−12[tr(Ht+Vt)Σ−1i+(Z−μi)TΣ−1i(Z−μi)+bi(μi−ai)TΣ−1i(μi−ai)+ni(X^i−μi)TΣ−1i(X^i−μi)]}...省略...∝[(ni+vi)+(ni+bi)(ni+vi)ni+bi+1(Z−μ^i)TW−1i(Z−μ^i)−(ni+vi+p)/2]
可以发现,最终Z满足一个多元的t分布。从而,我们可以从t分布来估算出Z属于各个标签的概率。
等等,中间是不是省略了什么东西?是的,因为中间的推导较为繁琐,如果只关注一个结论的话,读者可以跳过下面这段,直接阅读下一节,对于有兴趣了解证明的读者,我们将证明过程呈现如下:
约定:
μ˙=niX^i+biai+Zni+bi+1Ti=Hi+Vi+(niX^iX^Ti+biaiaTi+ZZT)−(ni+bi+1)μ˙μ˙T
则有:
接上式省略部分∫μi∈R∫Σi>01|Σi|(n1+v1+2p+2)/2exp{−12trΣ−1[Ti+(ni+bi+1)(μi−μ˙i)(μi−μ˙i)T]}
其类似于Wishart函数的分布核,则可以利用Wishart函数在
Σi>0 积分为1,得到:
∝∫μi∈Rdμi|Ti+(ni+bi+1)(μi−μ˙i)(μi−μ˙i)T|(vi+2p+1)/2
利用多元T分布在R上密度积分为1可以得到:
∝|Ti|−(ni+vi+p)/2
记
μ¨=1ni+bi(niX^i+biai)Wi=Hi+Vi+ni+bini+bi+1(Z−μ¨)(Z−μ¨)T
可得:
上式∝[(ni+vi)+(ni+bi)(ni+vi)ni+bi+1(Z−μ¨i)(Z−μ¨i)T]−(ni+vi+p)/2
推导完毕
所以,对于一个样本 Z 可以得到其属于类别 Ai 的概率为:
P(Ai|Z)=p(Z|Ai)P(Ai)/P(Z)=P(Ai)f(Z|X^i,Vi;Ai)/∑i=1GP(Ai)f(Z|X^i,Vi;Ai)
这样,我们就可以使用类似softmax标签的方式进行分类了