Dirichlet distribution,对于做主题模型(topic model)研究特别的重要,因为很多模型之中都需要它作为先验分布。
本来这个分布Wikipedia和大多数的教科书已经讲得非常清楚,没有必要在这里多介绍,但是最近在理解Dirichlet process过程中,发现从另外一个角度来理解Dirichlet Distribution,对于理解Dirichlet Process有一定的帮助,特此介绍如下。
传统的Dirichlet Distribution的形式:
P(x_1, x_2, ..., x_k| \alpha_1, \alpha_2, ..., \alpha_k) \prop \prod_1 ^k (x_i)^(\alpha_i - 1)
Dirichlet Distribution是分布的分布,其中\sum x_i = 1。
另外一种形式:
P(x_1, x_2, ..., x_k| \alpha, M) \prop \prod_1 ^k (x_i)^(\alpha*M_i - 1)
其中,\sum M_i = 1。从而M可以看做一个分布。可以记为:P ~ Dir(\alpha, M)
下面我们来看看Dirichlet process的定义:
对于一个空间,已经有一个分布M,和一个正实数\alpha,如果对于该空间的任意可数划分A1, A2, ..., An,都有
(G(A1), G(A2), ..., G(An)) ~ Dir(\alpha*M(A1), \alpha*M(A2), ..., \alpha*M(An)) = Dir(\alpha, M)
其中,Dir是一个dirichlet distribution, M是[M(A1), M(A2), ..., M(An)]的概率向量。我们就称G是一个Dirichlet Process。
注意观察这个定义与Dirichlet Distribution的第二种形式的异同,Dirichlet distribution描述了空间上的一种划分情况下的分布,而Dirichlet Process描述了整个空间上的所有划分的情况下的分布情况,M是人们对于分布的主观看法,而\alpha就是描述如果抽样的话,会多好地接近分布M。即M是Base Distribution,\alpha是精度。
这样,我们就可以把Dirichlet Distribution和Dirichlet process更加统一地来看待,同时加深我们对于它们的理解。