最大似然估计(MLE)是最大化似然函数 p(X|θ) 。
最大后验概率(MAP)是最大化 p(X|θ)p(θ)
两者都是点估计。最大后验概率是对参数指定一个先验分布。得到的值介于先验和MLE之间。
贝叶斯估计是基于贝叶斯公式进行求解,它将参数 θ 也看做随机变量,为 θ 指定一个先验分布,通过计算得到 p(θ|X) 。
共轭
对似然函数,选定一个先验后,得到一个与先验具有相同函数形式的的后验分布(除了系数不同),此时,我们说先验分布和后验分布是共轭的,同时,这个先验是似然的共轭先验。
Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. —-from wiki
共轭的好处是计算方便,同时超参数有明确的物理意义,就是伪计数。另外一个好处就是在计算似然函数时可以把似然函数中的参数通过积分给消掉,从而把似然表示为超参数的函数。这个要通过推导才能看出来。
在定义似然函数时,以伯努利分布和二项分布为例,什么时候要在似然函数上加上二项分布的系数,什么时候不加?当我们只是对一系列伯努利实验的结果序列进行建模时不用加系数。当我们对一系列伯努利实验的每个结果的次数进行建模时就要加上系数。
这里的叙述可能有问题,二项分布的似然函数的表达式是 pk(1−p)n−k
unigram model假设文档之间独立,词之间也独立,那么生成一个文档的过程就是一个多次的多项式分布实验,重复N次就生成了N个单词。这是最简单的模型,其实就是多次的多项式分布实验。
其实也可以给unigram model中的单词被选中的概率一个先验分布,从而使用贝叶斯估计的那一套来进行计算。
贝叶斯网络是一类图模型,用来表示概率分布和条件依赖。
贝叶斯网路是一个有向图,节点表示随机变量,边表示条件关系,其中观测变量和隐含变量的表示又有不同。盘子表示随机变量的多次重复出现,右下角是出现次数。
推导
首先应该了解gamma函数:
gamma函数是阶乘函数在实数与复数上的扩展,定义为:
同时有如下递推公式:
下面是Dirichlet分布,该分布是Beta分布从二维到K维的推广。
该分布的概率密度函数为:
上面的式子在LDA的推导中会一直用到。
先约定下各个符号的含义。
M:文档数
K:主题数
V:词汇表大小
α⃗ :文档的主题分布的先验分布的超参数
β⃗ :主题的单词分布的先验分布的超参数
θ⃗ m :表示p(z|d=m),文档m的主题分布,每个文档一个向量,构成矩阵 Θ={θ⃗ m}Mm=1(M∗K)
φ⃗ k 表示p(t|z=k),主题k的单词分布,每个主题一个,构成矩阵 Φ={φ⃗ k}Kk=1(k∗V)
在LDA中隐含变量是每个单词的主题 zm,n
collapsed的意思是把某些参数通过积分的形式给去掉。在LDA中就是把 Θ 和 Φ 给积掉。
我们推断的目标是 p(z|w) ,即主题关于单词的后验分布。
我们先求分子的联合分布。
n(t)k 表示单词t在主题k中出现的次数。
β⃗ 是一个V维的向量。
n(t)k 是一个K*V的矩阵,表示主题k中单词t出现的次数。符号表示不准确。
下面求 p(z⃗ |α⃗ )
di 表示单词i所属的文档。 nkm 表示文档m中主题k出现的次数。
同样,我们把 Θ 给积分掉。
有了上面的联合分布,我们可以求单词w(m,n)的full conditional
有了这个联合分布,我们就可以使用gibbs 抽样对这个分布进行采样,因为w是观测到的已知数据,只有z是隐含变量,所以我们实际上真正需要采样的分布是 p(z|w) 。
有如下关系式。
利用贝叶斯公式
如何预测新的文档的主题分布?
在训练中得到了主题关于单词的概率分布,在预测时我们认为这个概率分布式固定的,只需要预测新文档的主题分布就可以了。
分为如下几步:
1.首先,随机初始化新文档的每个单词的主题
2.按照gibbs抽样规则,对每个词的主题进行抽样,
3.重复2,直到gibbs sampling收敛。
4.统计新文档的主题分布。
参考:
1.https://zh.wikipedia.org/wiki/%CE%93%E5%87%BD%E6%95%B0
2.https://zh.wikipedia.org/wiki/%E7%8B%84%E5%88%A9%E5%85%8B%E9%9B%B7%E5%88%86%E5%B8%83
3.https://cxwangyi.files.wordpress.com/2012/01/llt.pdf
4.LDA八卦