机器学习——算法学习——主题模型LDA(1)数学基础

一.重要公式

1. 贝叶斯公式

经典的贝叶斯公式表示为:P(\theta |X)=\tfrac{P(X|\theta )*P(\theta )}{P(X)}

当X为固定值时,P(X)为公共项。故可以写为:P(\theta |X)=\tfrac{P(X|\theta )*P(\theta )}{P(X)}\propto P(X|\theta)*P(\theta )

其中,我们对于随机变量θ,可以定义定义:

                                                                    ①先验概率:P(\theta )

                                                                    ②似然函数:P(X|\theta )

                                                                    ③后验概率:P(\theta |X)

因此,可以给出最后对贝叶斯公式的解读:后验概率∝似然函数*先验概率

2. Gamma函数(即Γ函数)

Gamma函数最初的由来,是为了将积分与阶乘联系到一起。哥德巴赫向伯努利兄弟写信请教,最终由当时在场的欧拉在22岁时提出Gamma函数解决。

Gamma函数的数学表示为:\Gamma (a)=\int_{0}^{+\infty }t^{a-1}e^{-t}dt

这里不再进行积分推导,直接给出Gamma函数的几个性质:

①. 当a为正整数时,\Gamma (a)=(a-1)!

②. \Gamma (a+1)=a\Gamma (a) 。

③. \Gamma (\tfrac{1}{2})=\sqrt{\pi } 。

二.重要分布

1. 二项分布

二项分布,即进行n次伯努利实验的概率分布。表示为B~(n,p)。n为实验次数,p为成功概率。

举例:经典的抛硬币问题,即一个简单的二项分布。二项分布只有两个结果,如果我们抛十次硬币,将抛正面记为成功,反面记为失败,则该分布即可表示为B~(10,0.5)。(假设正面反面概率均为0.5)

可以得到,P(k)=C_{n}^{k}p^{k}(1-p)^{n-k}

相应,可以认为抛硬币结果有4次正面的概率计算为P(k=4)=C_{10}^{4}0.5^{4}(1-0.5)^{6}

2. 多项式分布

多项式分布,可以简单理解成对于二项分布的展开。

我们将二项分布中,只有正反这两个结果的情况改变。

①例如,有一个箱子,里面有n个除了颜色都相同的球,其中颜色共有红、橙、黄、绿、青、蓝、紫七种,则假设不同颜色球的个数分别为:n_{1},n_{2},n_{3},n_{4},n_{5},n_{6},n_{7}

所以从中取出某颜色的球的概率就分别为:p_{1}=\tfrac{n_{1}}{n},p_{2}=\tfrac{n_{2}}{n},p_{3}=\tfrac{n_{3}}{n},p_{4}=\tfrac{n_{4}}{n},p_{5}=\tfrac{n_{5}}{n},p_{6}=\tfrac{n_{6}}{n},p_{7}=\tfrac{n_{7}}{n}

故,假设从中取球N次,且观察颜色后放回,在共N次观测中,挂测到N_{1}次红球、N_{2}次橙球、N_{3}次黄球、N_{4}次绿球、N_{5}次青球、N_{6}次蓝球、N_{7}次紫球的概率(\sum_{i=1}^{7}N_{i}=N)。

这就是一个典型的多项式分布问题。类似这个问题我们进行如下定义:

② 多项式分布的定义:设一个随机事件共可能出现d种情况,且每种情况d{_{i}}出现的概率为\mu _{i},且\sum_{i=1}^{d}\mu _{i}=1。故在N次独立事件中出现m{_{i}}d{_{i}}的概率。(其中\sum_{i=1}^{d}m_{i}=N

得到最后概率函数:P(m_{1},m_{2}...m_{d}|N,\mu_{1},\mu_{2}...\mu_{d})=\tfrac{N!}{m_{1}!m_{2}!...m_{d}!}\prod_{i=1}^{d}\mu_{i}^{m_{i}}

有兴趣可以对上面抓球的问题简单理解一下,这里不写了。

3. 贝塔分布(Beta分布)

①.首先介绍贝塔函数B(a,b)=\frac{\Gamma(a)\Gamma (b)}{\Gamma(a+b)}。这个函数就是一个调节参数,为了使最后的函数积分为1而设置。

②.贝塔分布(Beta distribution):对于连续随机变量\mu\in [0,1],其概率密度函数如下(其中a>0、b>0):

                                 P(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu )^{b-1}=\frac{1}{B(a,b)}\mu^{a-1}(1-\mu )^{b-1}

当a=b=1时,B(a,b)=1该分布化为均匀分布。

对于贝塔分布,可得到期望E[\mu]=\frac{a}{a+b}方差var[\mu]=\frac{ab}{(a+b)^{2}(a+b+a)}

4. 狄利克雷分布(Dirichlet分布)

类似于二项分布向多项式分布的扩展,狄利克雷分布也是有贝塔分布演化而来。我们将连续变量从1个增加到d个,分别定义为\mu_{1},\mu_{2}...\mu_{d}\in[0,1],且\sum_{i=1}^{d}\mu _{i}=1。参数由a、b两个增加到d个参数,分别为\alpha_{1},\alpha_{1},...,\alpha _{d}>0

定义\overrightarrow{\mu }=(\mu _{1};\mu _{2};...\mu _{d})\overrightarrow{\alpha}=(\alpha_{1};\alpha_{1};...\alpha _{d})\widehat{a}=\sum_{i=1}^{d}\alpha_{i}

故可以给出狄利克雷分布的概率:

                                           P(\overrightarrow{\mu}|\overrightarrow{\alpha})=\frac{\Gamma(\widehat{\alpha })}{\Gamma(\alpha_{1})...\Gamma(\alpha_{d})}\prod_{i=1}^{d}\mu_{i}^{\alpha _{i}-1}

对于狄利克雷分布,可得到期望:E[\mu_{i}]=\frac{\alpha_{i}}{\widehat{\alpha }}方差:var[\mu_{i}]=\frac{\alpha_{i}(\widehat{\alpha}-\alpha_{i})}{\widehat{\alpha}^{2}(\widehat{\alpha }+1)}协方差:cov[\mu _{i},\mu _{j}]=\frac{\alpha_{i}\alpha_{j}}{\widehat{\alpha}^{2}(\widehat{\alpha }+1)}

三.共轭先验分布

本篇笔记的最终目的就是为了理解这个概念。这个概念将用到最终LDA模型中。

首先给出共轭先验分布的定义:如果先验分布似然函数可以使得先验分布后验分布有相同的形式,那么就称先验分布与似然函数是共轭的。

这样说比较抽象,举个例子:

假设:①.对于随机变量θ,其先验分布符合Be贝塔分布,即:P(\theta)=beta(a,b)\propto \theta^{a-1}(1-\theta)^{b-1}

           ②.似然函数P(X|\theta )满足二项分布,即:P(X|\theta)\propto\theta ^{k}(1-\theta)^{n-k}

根据假设①、②计算后验概率(参考一中贝叶斯公式)得到:

                  \small P(\theta |X)\propto P(X|\theta)*P(\theta )=\theta ^{k}(1-\theta)^{n-k}*\theta^{a-1}(1-\theta)^{b-1}=\theta ^{k+a-1}(1-\theta)^{n-k+b-1}

后验概率符合贝塔分布形式,故设\small a{}'=k+a\small b{}'=n-k+b

得:\small P(\theta |X)\propto \theta ^{k+a-1}(1-\theta)^{n-k+b}=\theta ^{a{}'-1}(1-\theta)^{b{}'-1}

可知后验概率 \small P(\theta |X) 也符合贝塔分布,即\small P(\theta |X)= Beta(a{}',b{}')=\frac{1}{B(a{}',b{}')}\theta ^{a{}'-1}(1-\theta)^{b{}'-1}

结论:从上述过程可以看到先验分布及后验分布均符合贝塔分布,

★故:先验分布符合的贝塔分布与似然函数符合的二项分布互为共轭先验分布。

★拓展:多项式分布与狄利克雷分布互为共轭先验分布。在此不再证明,有空在更新。

 

可能上述过程存在表达上的小错误,但是大部分思路应该是没有问题,如果有问题欢迎指出一起讨论。

 

在创作过程中参考了以下前辈的知识,故若有地方不明白可以前往连接中博客:

https://www.jianshu.com/p/bb7bce40a15a

https://blog.csdn.net/jiangjiang_jian/article/details/81346797

 

你可能感兴趣的:(机器学习,数学基础,主题模型)