珠穆拉玛峰

通俗理解LAD模型

一个函数：gamma函数
四个分布：二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念：共轭先验和贝叶斯框架
两个模型：pLSA、LDA（在本文第4 部分阐述）
一个采样：Gibbs采样

本文便按照上述5个步骤来阐述，希望读者看完本文后，能对LDA有个尽量清晰完整的了解。同时，本文基于邹讲LDA的PPT、rickjin的LDA数学八卦及其它参考资料写就，可以定义为一篇学习笔记或课程笔记，当然，后续不断加入了很多自己的理解。若有任何问题，欢迎随时于本文评论下指出，thanks。

1 gamma函数

1.0 整体把握LDA

关于LDA有两种含义，一种是线性判别分析（Linear Discriminant Analysis），一种是概率主题模型：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA），本文讲后者。

另外，我先简单说下LDA的整体思想，不然我怕你看了半天，铺了太长的前奏，却依然因没见到LDA的影子而显得“心浮气躁”，导致不想再继续看下去。所以，先给你吃一颗定心丸，明白整体框架后，咱们再一步步抽丝剥茧，展开来论述。

按照wiki上的介绍，LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，是一种主题模型，它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题（分布）出来后，便可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。

此外，一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

人类是怎么生成文档的呢？LDA的这三位作者在原始论文中给了一个简单的例子。比如假设事先给定了这几个主题：Arts、Budgets、Children、Education，然后通过学习训练，获取每个主题Topic对应的词语。如下图所示：

然后以一定的概率选取上述某个主题，再以一定的概率选取那个主题下的某个单词，不断的重复这两步，最终生成如下图所示的一篇文章（其中不同颜色的词语分别对应上图中不同主题下的词）：

而当我们看到一篇文章后，往往喜欢推测这篇文章是如何生成的，我们可能会认为作者先确定这篇文章的几个主题，然后围绕这几个主题遣词造句，表达成文。

LDA就是要干这事：根据给定的一篇文档，反推其主题分布。

通俗来说，可以假定认为人类是根据上述文档生成过程写成了各种各样的文章，现在某小撮人想让计算机利用LDA干一件事：你计算机给我推测分析网络上各篇文章分别都写了些啥主题，且各篇文章中各个主题出现的概率大小（主题分布）是啥。

然，就是这么一个看似普通的LDA，一度吓退了不少想深入探究其内部原理的初学者。难在哪呢，难就难在LDA内部涉及到的数学知识点太多了。

在LDA模型中，一篇文档生成的方式如下：

从狄利克雷分布中取样生成文档 i 的主题分布
从主题的多项式分布中取样生成文档i第 j 个词的主题
从狄利克雷分布中取样生成主题对应的词语分布
从词语的多项式分布中采样最终生成词语

其中，类似Beta分布是二项式分布的共轭先验概率分布，而狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布。

此外，LDA的图模型结构如下图所示（类似贝叶斯网络结构）：

恩，不错，短短6句话整体概括了整个LDA的主体思想！但也就是上面短短6句话，却接连不断或重复出现了二项分布、多项式分布、beta分布、狄利克雷分布（Dirichlet分布）、共轭先验概率分布、取样，那么请问，这些都是啥呢？

这里先简单解释下二项分布、多项分布、beta分布、Dirichlet 分布这4个分布。

二项分布（Binomial distribution）。

二项分布是从伯努利分布推进的。伯努利分布，又称两点分布或0-1分布，是一个离散型的随机分布，其中的随机变量只有两类取值，非正即负{+，-}。而二项分布即重复n次的伯努利试验，记为。简言之，只做一次实验，是伯努利分布，重复做了n次，是二项分布。二项分布的概率密度函数为：

对于k = 0, 1, 2, ..., n，其中的是二项式系数（这就是二项分布的名称的由来），又记为。回想起高中所学的那丁点概率知识了么：想必你当年一定死记过这个二项式系数就是。

多项分布，是二项分布扩展到多维的情况。

多项分布是指单次试验中的随机变量的取值不再是0-1的，而是有多种离散值可能（1,2,3...,k）。比如投掷6个面的骰子实验，N次实验结果服从K=6的多项分布。其中

多项分布的概率密度函数为：

Beta分布，二项分布的共轭先验分布。

给定参数和，取值范围为[0,1]的随机变量 x 的概率密度函数：

其中：

，。

注：便是所谓的gamma函数，下文会具体阐述。

Dirichlet分布，是beta分布在高维度上的推广。

Dirichlet分布的的密度函数形式跟beta分布的密度函数如出一辙：

其中

至此，我们可以看到二项分布和多项分布很相似，Beta分布和Dirichlet 分布很相似，而至于“Beta分布是二项式分布的共轭先验概率分布，而狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布”这点在下文中说明。

OK，接下来，咱们就按照本文开头所说的思路：“一个函数：gamma函数，四个分布：二项分布、多项分布、beta分布、Dirichlet分布，外加一个概念和一个理念：共轭先验和贝叶斯框架，两个模型：pLSA、LDA（文档-主题，主题-词语），一个采样：Gibbs采样”一步步详细阐述，争取给读者一个尽量清晰完整的LDA。

（当然，如果你不想深究背后的细节原理，只想整体把握LDA的主体思想，可直接跳到本文第4 部分，看完第4部分后，若还是想深究背后的细节原理，可再回到此处开始看）

1.1 gamma函数

咱们先来考虑一个问题（此问题1包括下文的问题2-问题4皆取材自LDA数学八卦）：

问题1 随机变量
把这n 个随机变量排序后得到顺序统计量
然后请问的分布是什么。

为解决这个问题，可以尝试计算落在区间[x,x+Δx]的概率。即求下述式子的值：

首先，把 [0,1] 区间分成三段 [0,x)，[x,x+Δx]，(x+Δx,1]，然后考虑下简单的情形：即假设n 个数中只有1个落在了区间 [x,x+Δx]内，由于这个区间内的数X(k)是第k大的，所以[0,x)中应该有 k−1 个数，(x+Δx,1] 这个区间中应该有n−k 个数。如下图所示：

从而问题转换为下述事件E：

对于上述事件E，有：

其中，o(Δx)表示Δx的高阶无穷小。显然，由于不同的排列组合，即n个数中有一个落在 [x,x+Δx]区间的有n种取法，余下n−1个数中有k−1个落在[0,x)的有种组合，所以和事件E等价的事件一共有个。

如果有2个数落在区间[x,x+Δx]呢？如下图所示：

类似于事件E，对于2个数落在区间[x,x+Δx]的事件E’：

有：

从上述的事件E、事件E‘中，可以看出，只要落在[x,x+Δx]内的数字超过一个，则对应的事件的概率就是 o(Δx)。于是乎有：

从而得到的概率密度函数为：

至此，本节开头提出的问题得到解决。然仔细观察的概率密度函数，发现式子的最终结果有阶乘，联想到阶乘在实数上的推广函数：

两者结合是否会产生奇妙的效果呢？考虑到具有如下性质：

故将代入到的概率密度函数中，可得：

然后取，，转换得到：

如果熟悉beta分布的朋友，可能会惊呼：哇，竟然推出了beta分布！

2 beta分布

2.1 beta分布

在概率论中，beta是指一组定义在区间的连续概率分布，有两个参数和，且。

beta分布的概率密度函数是：

其中的便是函数：

随机变量X服从参数为的beta分布通常写作：。

2.2 Beta-Binomial 共轭

回顾下1.1节开头所提出的问题：“问题1 随机变量，把这n 个随机变量排序后得到顺序统计量，然后请问的分布是什么。” 如果，咱们要在这个问题的基础上增加一些观测数据，变成问题2：

，对应的顺序统计量是，需要猜测；
，中有个比p小，个比大；
那么，请问的分布是什么。

根据“Yi中有个比小，个比大”，换言之，Yi中有个比小，个比大，所以是中第大的数。

根据1.1节最终得到的结论“只要落在[x,x+Δx]内的数字超过一个，则对应的事件的概率就是 o(Δx)”，继而推出事件服从beta分布，从而可知的概率密度函数为：

熟悉贝叶斯方法（不熟悉的没事，参见此文第一部分）的朋友心里估计又犯“嘀咕”了，这不就是贝叶斯式的思考过程么？

为了猜测，在获得一定的观测数据前，我们对的认知是：，此称为的先验分布；
然后为了获得这个结果“ 中有个比p小，个比大”，针对是做了次贝努利实验，所以服从二项分布；
在给定了来自数据提供的的知识后，的后验分布变为。

回顾下贝叶斯派思考问题的固定模式：

先验分布 + 样本信息后验分布

上述思考模式意味着，新观察到的样本信息将修正人们以前对事物的认知。换言之，在得到新的样本信息之前，人们对的认知是先验分布，在得到新的样本信息后，人们对的认知为。

类比到现在这个问题上，我们也可以试着写下：

其中对应的是二项分布的计数。

更一般的，对于非负实数和，我们有如下关系

针对于这种观测到的数据符合二项分布，参数的先验分布和后验分布都是Beta分布的情况，就是Beta-Binomial共轭。换言之，Beta分布是二项式分布的共轭先验概率分布。

二项分布和Beta分布是共轭分布意味着，如果我们为二项分布的参数p选取的先验分布是Beta分布，那么以p为参数的二项分布用贝叶斯估计得到的后验分布仍然服从Beta分布。

此外，如何理解参数和所表达的意义呢？、可以认为形状参数，通俗但不严格的理解是，和共同控制Beta分布的函数“长的样子”：形状千奇百怪，高低胖瘦，如下图所示：

2.3 共轭先验分布

什么又是共轭呢？轭的意思是束缚、控制，共轭从字面上理解，则是共同约束，或互相约束。

在贝叶斯概率理论中，如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。

比如，某观测数据服从概率分布P(θ)时，当观测到新的X数据时，我们一般会遇到如下问题：

可否根据新观测数据X，更新参数θ？
根据新观测数据可以在多大程度上改变参数θ，即

当重新估计θ的时候，给出新参数值θ的新概率分布，即P(θ|x)。

事实上，根据根据贝叶斯公式可知：

举个例子。投掷一个非均匀硬币，可以使用参数为θ的伯努利模型，θ为硬币为正面的概率，那么结果x的分布形式为：

其共轭先验为beta分布，具有两个参数和，称为超参数（hyperparameters）。且这两个参数决定了θ参数，其Beta分布形式为

然后计算后验概率

归一化这个等式后会得到另一个Beta分布，从而证明了Beta分布确实是伯努利分布的共轭先验分布。

2.4 从beta分布推广到Dirichlet 分布

接下来，咱们来考察beta分布的一个性质。

如果，则有：

注意到上式最后结果的右边积分

其类似于概率分布，而对于这个分布有

从而求得

的结果为

最后将此结果带入的计算式，得到：

最后的这个结果意味着对于Beta 分布的随机变量，其均值（期望）可以用来估计。此外，狄利克雷Dirichlet 分布也有类似的结论，即如果，同样可以证明有下述结论成立：

那什么是Dirichlet 分布呢？简单的理解Dirichlet 分布就是一组连续多变量概率分布，是多变量普遍化的beta分布。为了纪念德国数学家约翰·彼得·古斯塔夫·勒热纳·狄利克雷（Peter Gustav Lejeune Dirichlet）而命名。狄利克雷分布常作为贝叶斯统计的先验概率。

3 Dirichlet 分布

3.1 Dirichlet 分布

根据wikipedia上的介绍，维度K ≥ 2（x1,x2…xK-1维，共K个）的狄利克雷分布在参数α1, ..., αK > 0上、基于欧几里得空间RK-1里的勒贝格测度有个概率密度函数，定义为：

其中，相当于是多项beta函数

且

此外，x1+x2+…+xK-1+xK=1，x1,x2…xK-1>0，且在(K-1)维的单纯形上，其他区域的概率密度为0。

当然，也可以如下定义Dirichlet 分布

其中的称为Dirichlet 分布的归一化系数：

且根据Dirichlet分布的积分为1（概率的基本性质），可以得到：

3.2 Dirichlet-Multinomial 共轭

下面，在2.2节问题2的基础上继续深入，引出问题3。

，
排序后对应的顺序统计量,
问的联合分布是什么？

为了简化计算，取x3满足x1+x2+x3=1,但只有x1,x2是变量，如下图所示：

从而有：

继而得到于是我们得到的联合分布为：

观察上述式子的最终结果，可以看出上面这个分布其实就是3维形式的 Dirichlet 分布

令，于是分布密度可以写为

这个就是一般形式的3维 Dirichlet 分布，即便延拓到非负实数集合，以上概率分布也是良定义的。

将Dirichlet分布的概率密度函数取对数，绘制对称Dirichlet分布的图像如下图所示（截取自wikipedia上）：

上图中，取K=3，也就是有两个独立参数x1,x2，分别对应图中的两个坐标轴，第三个参数始终满足x3=1-x1-x2且α1=α2=α3=α，图中反映的是参数α从α=(0.3, 0.3, 0.3)变化到(2.0, 2.0, 2.0)时的概率对数值的变化情况。

为了论证Dirichlet分布是多项式分布的共轭先验概率分布，下面咱们继续在上述问题3的基础上再进一步，提出问题4。

问题4 ，排序后对应的顺序统计量
令,,（此处的p3非变量，只是为了表达方便），现在要猜测；
，Yi中落到，，三个区间的个数分别为 m1,m2,m3，m=m1+m2+m3；
问后验分布的分布是什么。

为了方便讨论，记，及，根据已知条件“，Yi中落到，，三个区间的个数分别为 m1,m2”，可得、分别是这m+n个数中第大、第大的数。于是，后验分布应该为，即一般化的形式表示为：。

同样的，按照贝叶斯推理的逻辑，可将上述过程整理如下：

我们要猜测参数，其先验分布为；
数据Yi落到三个区间，，的个数分别为，所以服从多项分布
在给定了来自数据提供的知识后，的后验分布变为

上述贝叶斯分析过程的直观表述为：

令，可把从整数集合延拓到实数集合，从而得到更一般的表达式如下：

针对于这种观测到的数据符合多项分布，参数的先验分布和后验分布都是Dirichlet 分布的情况，就是Dirichlet-Multinomial 共轭。换言之，至此已经证明了Dirichlet分布的确就是多项式分布的共轭先验概率分布。

意味着，如果我们为多项分布的参数p选取的先验分布是Dirichlet分布，那么以p为参数的多项分布用贝叶斯估计得到的后验分布仍然服从Dirichlet分布。

进一步，一般形式的Dirichlet 分布定义如下：

而对于给定的和，其多项分布为：

结论是：Dirichlet分布和多项分布是共轭关系。

4 主题模型LDA

在开始下面的旅程之前，先来总结下我们目前所得到的最主要的几个收获：

通过上文的第2.2节，我们知道beta分布是二项式分布的共轭先验概率分布：
```
 “对于非负实数和，我们有如下关系
```

其中对应的是二项分布的计数。针对于这种观测到的数据符合二项分布，参数的先验分布和后验分布都是Beta分布的情况，就是Beta-Binomial 共轭。”

通过上文的3.2节，我们知道狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布：
```
“ 把从整数集合延拓到实数集合，从而得到更一般的表达式如下：
```

针对于这种观测到的数据符合多项分布，参数的先验分布和后验分布都是Dirichlet 分布的情况，就是 Dirichlet-Multinomial 共轭。 ”

以及贝叶斯派思考问题的固定模式：

先验分布 + 样本信息  后验分布
    上述思考模式意味着，新观察到的样本信息将修正人们以前对事物的认知。换言之，在得到新的样本信息之前，人们对的认知是先验分布，在得到新的样本信息后，人们对的认知为。


顺便提下频率派与贝叶斯派各自不同的思考方式：
频率派把需要推断的参数θ看做是固定的未知常数，即概率虽然是未知的，但最起码是确定的一个值，同时，样本X 是随机的，所以频率派重点研究样本空间，大部分的概率计算都是针对样本X 的分布；
	而贝叶斯派的观点则截然相反，他们认为待估计的参数是随机变量，服从一定的分布，而样本X 是固定的，由于样本是固定的，所以他们重点研究的是参数的分布。

OK，在杀到终极boss——LDA模型之前，再循序渐进理解基础模型：Unigram model、mixture of unigrams model，以及跟LDA最为接近的pLSA模型。

为了方便描述，首先定义一些变量：

表示词，表示所有单词的个数（固定值）
表示主题，是主题的个数（预先给定，固定值）
表示语料库，其中的是语料库中的文档数（固定值）
表示文档，其中的表示一个文档中的词数（随机变量）

4.1 各个基础模型

4.1.1 Unigram model

对于文档，用表示词的先验概率，生成文档的概率为：

其图模型为（图中被涂色的w表示可观测变量，N表示一篇文档中总共N个单词，M表示M篇文档）：

或为：

unigram model假设文本中的词服从Multinomial分布，而我们已经知道Multinomial分布的先验分布为Dirichlet分布。
上图中的表示在文本中观察到的第n个词，n∈[1,N]表示该文本中一共有N个单词。加上方框表示重复，即一共有N个这样的随机变量。其中，p和α是隐含未知变量：

p是词服从的Multinomial分布的参数
α是Dirichlet分布（即Multinomial分布的先验分布）的参数。

一般α由经验事先给定，p由观察到的文本中出现的词学习得到，表示文本中出现每个词的概率。

4.1.2 Mixture of unigrams model

该模型的生成过程是：给某个文档先选择一个主题，再根据该主题生成文档，该文档中的所有词都来自一个主题。假设主题有，生成文档的概率为：

其图模型为（图中被涂色的w表示可观测变量，未被涂色的z表示未知的隐变量，N表示一篇文档中总共N个单词，M表示M篇文档）：

4.2 PLSA模型

啊哈，长征两万五，经过前面这么长的铺垫，终于快要接近LDA模型了！因为跟LDA模型最为接近的便是下面要阐述的这个pLSA模型，理解了pLSA模型后，到LDA模型也就一步之遥——给pLSA加上贝叶斯框架，便是LDA。

4.2.1 pLSA模型下生成文档

OK，在上面的Mixture of unigrams model中，我们假定一篇文档只有一个主题生成，可实际中，一篇文章往往有多个主题，只是这多个主题各自在文档中出现的概率大小不一样。比如介绍一个国家的文档中，往往会分别从教育、经济、交通等多个主题进行介绍。那么在pLSA中，文档是怎样被生成的呢？

假设你要写M篇文档，由于一篇文档由各个不同的词组成，所以你需要确定每篇文档里每个位置上的词。

再假定你一共有K个可选的主题，有V个可选的词，咱们来玩一个扔骰子的游戏。

1. 假设你每写一篇文档会制作一颗K面的“文档-主题”骰子（扔此骰子能得到K个主题中的任意一个），和K个V面的“主题-词项” 骰子（每个骰子对应一个主题，K个骰子对应之前的K个主题，且骰子的每一面对应要选择的词项，V个面对应着V个可选的词）。

比如可令K=3，即制作1个含有3个主题的“文档-主题”骰子，这3个主题可以是：教育、经济、交通。然后令V = 3，制作3个有着3面的“主题-词项”骰子，其中，教育主题骰子的3个面上的词可以是：大学、老师、课程，经济主题骰子的3个面上的词可以是：市场、企业、金融，交通主题骰子的3个面上的词可以是：高铁、汽车、飞机。

2. 每写一个词，先扔该“文档-主题”骰子选择主题，得到主题的结果后，使用和主题结果对应的那颗“主题-词项”骰子，扔该骰子选择要写的词。

先扔“文档-主题”的骰子，假设（以一定的概率）得到的主题是教育，所以下一步便是扔教育主题筛子，（以一定的概率）得到教育主题筛子对应的某个词：大学。

	上面这个投骰子产生词的过程简化下便是：“先以一定的概率选取主题，再以一定的概率选取词”。事实上，一开始可供选择的主题有3个：教育、经济、交通，那为何偏偏选取教育这个主题呢？其实是随机选取的，只是这个随机遵循一定的概率分布。比如可能选取教育主题的概率是0.5，选取经济主题的概率是0.3，选取交通主题的概率是0.2，那么这3个主题的概率分布便是{教育：0.5，经济：0.3，交通：0.2}，我们把各个主题z在文档d中出现的概率分布称之为主题分布，且是一个多项分布。
		同样的，从主题分布中随机抽取出教育主题后，依然面对着3个词：大学、老师、课程，这3个词都可能被选中，但它们被选中的概率也是不一样的。比如大学这个词被选中的概率是0.5，老师这个词被选中的概率是0.3，课程被选中的概率是0.2，那么这3个词的概率分布便是{大学：0.5，老师：0.3，课程：0.2}，我们把各个词语w在主题z下出现的概率分布称之为词分布，这个词分布也是一个多项分布。
		所以，选主题和选词都是两个随机的过程，先从主题分布{教育：0.5，经济：0.3，交通：0.2}中抽取出主题：教育，然后从该教育主题对应的词分布{大学：0.5，老师：0.3，课程：0.2}中抽取出词：大学。


3. 最后，你不停的重复扔“文档-主题”骰子和”主题-词项“骰子，重复N次（产生N个词），完成一篇文档，重复这产生一篇文档的方法M次，则完成M篇文档。

上述过程抽象出来即是PLSA的文档生成模型。在这个过程中，我们并未关注词和词之间的出现顺序，所以pLSA是一种词袋方法。具体说来，该模型假设一组共现(co-occurrence)词项关联着一个隐含的主题类别。同时定义：

表示海量文档中某篇文档被选中的概率。
表示词在给定文档中出现的概率。
- 怎么计算得到呢？针对海量文档，对所有文档进行分词后，得到一个词汇列表，这样每篇文档就是一个词语的集合。对于每个词语，用它在文档中出现的次数除以文档中词语总的数目便是它在文档中出现的概率。
表示具体某个主题在给定文档下出现的概率。
表示具体某个词在给定主题下出现的概率，与主题关系越密切的词，其条件概率越大。

利用上述的第1、3、4个概率，我们便可以按照如下的步骤得到“文档-词项”的生成模型：

按照概率选择一篇文档
选定文档后，从主题分布中按照概率选择一个隐含的主题类别
选定后，从词分布中按照概率选择一个词

所以pLSA中生成文档的整个过程便是选定文档生成主题，确定主题生成词。

4.2.1 根据文档反推其主题分布

反过来，既然文档已经产生，那么如何根据已经产生好的文档反推其主题呢？这个利用看到的文档推断其隐藏的主题（分布）的过程（其实也就是产生文档的逆过程），便是主题建模的目的：自动地发现文档集中的主题（分布）。

换言之，人类根据文档生成模型写成了各类文章，然后丢给了计算机，相当于计算机看到的是一篇篇已经写好的文章。现在计算机需要根据一篇篇文章中看到的一系列词归纳出当篇文章的主题，进而得出各个主题各自不同的出现概率：主题分布。即文档d和单词w是可被观察到的，但主题z却是隐藏的。

如下图所示（图中被涂色的d、w表示可观测变量，未被涂色的z表示未知的隐变量，N表示一篇文档中总共N个单词，M表示M篇文档）：

上图中，文档d和词w是我们得到的样本（样本随机，参数虽未知但固定，所以pLSA属于频率派思想。区别于下文要介绍的LDA中：样本固定，参数未知但不固定，是个随机变量，服从一定的分布，所以LDA属于贝叶斯派思想），可观测得到，所以对于任意一篇文档，其是已知的。

从而可以根据大量已知的文档-词项信息，训练出文档-主题和主题-词项，如下公式所示：

故得到文档中每个词的生成概率为：

由于可事先计算求出，而和未知，所以就是我们要估计的参数（值），通俗点说，就是要最大化这个θ。

用什么方法进行估计呢，常用的参数估计方法有极大似然估计MLE、最大后验证估计MAP、贝叶斯估计等等。因为该待估计的参数中含有隐变量z，所以我们可以考虑EM算法。

4.2.1.1 EM算法的简单介绍

EM算法，全称为Expectation-maximization algorithm，为期望最大算法，其基本思想是：首先随机选取一个值去初始化待估计的值，然后不断迭代寻找更优的使得其似然函数likelihood 比原来的要大。换言之，假定现在得到了，想求，使得

EM的关键便是要找到的一个下界（注：，其中，X表示已经观察到的随机变量），然后不断最大化这个下界，通过不断求解下界的极大化，从而逼近要求解的似然函数。

所以EM算法的一般步骤为：

1. 随机选取或者根据先验知识初始化；
2. 不断迭代下述两步
- ①给出当前的参数估计，计算似然函数的下界
- ②重新估计参数θ，即求，使得
3. 上述第二步后，如果收敛（即收敛）则退出算法，否则继续回到第二步。

上述过程好比在二维平面上，有两条不相交的曲线，一条曲线在上（简称上曲线），一条曲线在下（简称下曲线），下曲线为上曲线的下界。现在对上曲线未知，只已知下曲线，为了求解上曲线的最高点，我们试着不断增大下曲线，使得下曲线不断逼近上曲线，下曲线在某一个点达到局部最大值并与上曲线在这点的值相等，记录下这个值，然后继续增大下曲线，寻找下曲线上与上曲线上相等的值，迭代到收敛（即收敛）停止，从而利用当前下曲线上的局部最大值当作上曲线的全局最大值（换言之，EM算法不保证一定能找到全局最优值）。如下图所示：

以下是详细介绍。

假定有训练集，包含m个独立样本，希望从中找到该组数据的模型p(x,z)的参数。

然后通过极大似然估计建立目标函数--对数似然函数：

这里，z是隐随机变量，直接找到参数的估计是很困难的。我们的策略是建立的下界，并且求该下界的最大值；重复这个过程，直到收敛到局部最大值。

令Qi是z的某一个分布，Qi≥0，且结合Jensen不等式，有：

为了寻找尽量紧的下界，我们可以让使上述等号成立，而若要让等号成立的条件则是：

换言之，有以下式子成立：，且由于有：

所以可得：

最终得到EM算法的整体框架如下：

OK，EM算法还会在本博客后面的博文中具体阐述。接下来，回到pLSA参数的估计问题上。

4.2.1.2 EM算法估计pLSA的两未知参数

首先尝试从矩阵的角度来描述待估计的两个未知变量和。

假定用表示词表在主题上的一个多项分布，则可以表示成一个向量，每个元素表示词项出现在主题中的概率，即

用表示所有主题在文档上的一个多项分布，则可以表示成一个向量，每个元素表示主题出现在文档中的概率，即

这样，巧妙的把和转换成了两个矩阵。换言之，最终我们要求解的参数是这两个矩阵：

由于词和词之间是相互独立的，所以整篇文档N个词的分布为：

再由于文档和文档之间也是相互独立的，所以整个语料库中词的分布为（整个语料库M篇文档，每篇文档N个词）：

其中，表示词项在文档中的词频，表示文档di中词的总数，显然有。
从而得到整个语料库的词分布的对数似然函数（下述公式中有个小错误，正确的应该是：N为M，M为N）：

现在，我们需要最大化上述这个对数似然函数来求解参数和。对于这种含有隐变量的最大似然估计，可以使用EM算法。EM算法，分为两个步骤：先E-step，后M-step。

E-step：假定参数已知，计算此时隐变量的后验概率。

利用贝叶斯法则，可以得到：

M-step：带入隐变量的后验概率，最大化样本分布的对数似然函数，求解相应的参数。

观察之前得到的对数似然函数的结果，由于文档长度可以单独计算，所以去掉它不影响最大化似然函数。此外，根据E-step的计算结果，把代入，于是我们只要最大化下面这个函数即可（下述公式中有个小错误，正确的应该是：N为M，M为N）：

这是一个多元函数求极值问题，并且已知有如下约束条件（下述公式中有个小错误，正确的应该是：M为N）：

熟悉凸优化的朋友应该知道，一般处理这种带有约束条件的极值问题，常用的方法便是拉格朗日乘数法，即通过引入拉格朗日乘子将约束条件和多元（目标）函数融合到一起，转化为无约束条件的极值问题。

这里我们引入两个拉格朗日乘子和，从而写出拉格朗日函数（下述公式中有个小错误，正确的应该是：N为M，M为N）：

因为我们要求解的参数是和，所以分别对和求偏导，然后令偏导结果等于0，得到（下述公式中有个小错误，正确的应该是：N为M，M为N）：

消去拉格朗日乘子，最终可估计出参数和（下述公式中有个小错误，正确的应该是：N为M，M为N）：

综上，在pLSA中：

由于和未知，所以我们用EM算法去估计这个参数的值。
而后，用表示词项出现在主题中的概率，即，用表示主题出现在文档中的概率，即，从而把转换成了“主题-词项”矩阵Φ（主题生成词），把转换成了“文档-主题”矩阵Θ（文档生成主题）。
最终求解出、。

4.3 LDA模型

事实上，理解了pLSA模型，也就差不多快理解了LDA模型，因为LDA就是在pLSA的基础上加层贝叶斯框架，即LDA就是pLSA的贝叶斯版本（正因为LDA被贝叶斯化了，所以才需要考虑历史先验知识，才加的两个先验参数）。

4.3.1 pLSA跟LDA的对比：生成文档与参数估计

在pLSA模型中，我们按照如下的步骤得到“文档-词项”的生成模型：

按照概率选择一篇文档
选定文档后，确定文章的主题分布
从主题分布中按照概率选择一个隐含的主题类别
选定后，确定主题下的词分布
从词分布中按照概率选择一个词 ”

下面，咱们对比下本文开头所述的LDA模型中一篇文档生成的方式是怎样的：

按照先验概率选择一篇文档
从狄利克雷分布（即Dirichlet分布）中取样生成文档的主题分布，换言之，主题分布由超参数为的Dirichlet分布生成
从主题的多项式分布中取样生成文档第 j 个词的主题
从狄利克雷分布（即Dirichlet分布）中取样生成主题对应的词语分布，换言之，词语分布由参数为的Dirichlet分布生成
从词语的多项式分布中采样最终生成词语 ”

从上面两个过程可以看出，LDA在PLSA的基础上，为主题分布和词分布分别加了两个Dirichlet先验。

继续拿之前讲解PLSA的例子进行具体说明。如前所述，在PLSA中，选主题和选词都是两个随机的过程，先从主题分布{教育：0.5，经济：0.3，交通：0.2}中抽取出主题：教育，然后从该主题对应的词分布{大学：0.5，老师：0.3，课程：0.2}中抽取出词：大学。

而在LDA中，选主题和选词依然都是两个随机的过程，依然可能是先从主题分布{教育：0.5，经济：0.3，交通：0.2}中抽取出主题：教育，然后再从该主题对应的词分布{大学：0.5，老师：0.3，课程：0.2}中抽取出词：大学。

那PLSA跟LDA的区别在于什么地方呢？区别就在于：

PLSA中，主题分布和词分布是唯一确定的，能明确的指出主题分布可能就是{教育：0.5，经济：0.3，交通：0.2}，词分布可能就是{大学：0.5，老师：0.3，课程：0.2}。
但在LDA中，主题分布和词分布不再唯一确定不变，即无法确切给出。例如主题分布可能是{教育：0.5，经济：0.3，交通：0.2}，也可能是{教育：0.6，经济：0.2，交通：0.2}，到底是哪个我们不再确定（即不知道），因为它是随机的可变化的。但再怎么变化，也依然服从一定的分布，即主题分布跟词分布由Dirichlet先验随机确定。

看到这，你可能凌乱了，你说面对多个主题或词，各个主题或词被抽中的概率不一样，所以抽取主题或词是随机抽取，还好理解。但现在你说主题分布和词分布本身也都是不确定的，这是怎么回事？没办法，谁叫Blei等人“强行”给PLSA安了个贝叶斯框架呢，正因为LDA是PLSA的贝叶斯版本，所以主题分布跟词分布本身由先验知识随机给定。

进一步，你会发现：

pLSA中，主题分布和词分布确定后，以一定的概率（、）分别选取具体的主题和词项，生成好文档。而后根据生成好的文档反推其主题分布、词分布时，最终用EM算法（极大似然估计思想）求解出了两个未知但固定的参数的值：（由转换而来）和（由转换而来）。

文档d产生主题z的概率，主题z产生单词w的概率都是两个固定的值。

	举个文档d产生主题z的例子。给定一篇文档d，主题分布是一定的，比如{ P(zi|d), i = 1,2,3 }可能就是{0.4,0.5,0.1}，表示z1、z2、z3，这3个主题被文档d选中的概率都是个固定的值：P(z1|d) = 0.4、P(z2|d) = 0.5、P(z3|d) = 0.1，如下图所示（图截取自沈博PPT上）：

但在贝叶斯框架下的LDA中，我们不再认为主题分布（各个主题在文档中出现的概率分布）和词分布（各个词语在某个主题下出现的概率分布）是唯一确定的（而是随机变量），而是有很多种可能。但一篇文档总得对应一个主题分布和一个词分布吧，怎么办呢？LDA为它们弄了两个Dirichlet先验参数，这个Dirichlet先验为某篇文档随机抽取出某个主题分布和词分布。

文档d产生主题z（准确的说，其实是Dirichlet先验为文档d生成主题分布Θ，然后根据主题分布Θ产生主题z）的概率，主题z产生单词w的概率都不再是某两个确定的值，而是随机变量。

	还是再次举下文档d具体产生主题z的例子。给定一篇文档d，现在有多个主题z1、z2、z3，它们的主题分布{ P(zi|d), i = 1,2,3 }可能是{0.4,0.5,0.1}，也可能是{0.2,0.2,0.6}，即这些主题被d选中的概率都不再认为是确定的值，可能是P(z1|d) = 0.4、P(z2|d) = 0.5、P(z3|d) = 0.1，也有可能是P(z1|d) = 0.2、P(z2|d) = 0.2、P(z3|d) = 0.6等等，而主题分布到底是哪个取值集合我们不确定（为什么？这就是贝叶斯派的核心思想，把未知参数当作是随机变量，不再认为是某一个确定的值），但其先验分布是dirichlet 分布，所以可以从无穷多个主题分布中按照dirichlet 先验随机抽取出某个主题分布出来。如下图所示（图截取自沈博PPT上）：

换言之，LDA在pLSA的基础上给这两参数（、）加了两个先验分布的参数（贝叶斯化）：一个主题分布的先验分布Dirichlet分布，和一个词语分布的先验分布Dirichlet分布。

综上，LDA真的只是pLSA的贝叶斯版本，文档生成后，两者都要根据文档去推断其主题分布和词语分布（即两者本质都是为了估计给定文档生成主题，给定主题生成词语的概率），只是用的参数推断方法不同，在pLSA中用极大似然估计的思想去推断两未知的固定参数，而LDA则把这两参数弄成随机变量，且加入dirichlet先验。

所以，pLSA跟LDA的本质区别就在于它们去估计未知参数所采用的思想不同，前者用的是频率派思想，后者用的是贝叶斯派思想。
好比，我去一朋友家：

按照频率派的思想，我估计他在家的概率是1/2，不在家的概率也是1/2，是个定值。
而按照贝叶斯派的思想，他在家不在家的概率不再认为是个定值1/2，而是随机变量。比如按照我们的经验（比如当天周末），猜测他在家的概率是0.6，但这个0.6不是说就是完全确定的，也有可能是0.7。如此，贝叶斯派没法确切给出参数的确定值（0.3,0.4，0.6,0.7，0.8,0.9都有可能），但至少明白在哪个范围或哪些取值（0.6,0.7，0.8,0.9）更有可能，哪个范围或哪些取值（0.3,0.4）不太可能。进一步，贝叶斯估计中，参数的多个估计值服从一定的先验分布，而后根据实践获得的数据（例如周末不断跑他家），不断修正之前的参数估计，从先验分布慢慢过渡到后验分布。

OK，相信已经解释清楚了。如果是在机器学习班上face-to-face，更好解释和沟通。

4.3.2 LDA生成文档过程的进一步理解

上面说，LDA中，主题分布 —— 比如{ P(zi), i =1,2,3 }等于{0.4,0.5,0.1}或{0.2,0.2,0.6} —— 是由dirichlet先验给定的，不是根据文档产生的。所以，LDA生成文档的过程中，先从dirichlet先验中“随机”抽取出主题分布，然后从主题分布中“随机”抽取出主题，最后从确定后的主题对应的词分布中“随机”抽取出词。

那么，dirichlet先验到底是如何“随机”抽取主题分布的呢？

事实上，从dirichlet分布中随机抽取主题分布，这个过程不是完全随机的。为了说清楚这个问题，咱们得回顾下dirichlet分布。事实上，如果我们取3个事件的话，可以建立一个三维坐标系，类似xyz三维坐标系，这里，我们把3个坐标轴弄为p1、p2、p3，如下图所示：

在这个三维坐标轴所划分的空间里，每一个坐标点(p1,p2,p3)就对应着一个主题分布，且某一个点(p1,p2,p3)的大小表示3个主题z1、z2、z3出现的概率大小（因为各个主题出现的概率和为1，所以p1+p2+p3 = 1，且p1、p2、p3这3个点最大取值为1）。比如(p1,p2,p3) = (0.4,0.5,0.1)便对应着主题分布{ P(zi), i =1,2,3 } = {0.4,0.5,0.1}。

可以想象到，空间里有很多这样的点(p1,p2,p3)，意味着有很多的主题分布可供选择，那dirichlet分布如何选择主题分布呢？把上面的斜三角形放倒，映射到底面的平面上，便得到如下所示的一些彩图（3个彩图中，每一个点对应一个主题分布，高度代表某个主题分布被dirichlet分布选中的概率，且选不同的，dirichlet 分布会偏向不同的主题分布）：

我们来看上图中左边这个图，高度就是代表dirichlet分布选取某个坐标点(p1,p2,p3)（这个点就是一个主题分布）的概率大小。如下图所示，平面投影三角形上的三个顶点上的点：A=(0.9,0.05,0.05)、B=(0.05,0.9,0.05)、C=(0.05,0.05,0.9)各自对应的主题分布被dirichlet分布选中的概率值很大，而平面三角形内部的两个点：D、E对应的主题分布被dirichlet分布选中的概率值很小。

所以虽然说dirichlet分布是随机选取任意一个主题分布的，但依然存在着P(A) = P(B) = P(C) >> P(D) = P(E)，即dirichlet分布还是“偏爱”某些主题分布的。至于dirichlet分布的参数是如何决定dirichlet分布的形状的，可以从dirichlet分布的定义和公式思考。

此外，就算说“随机”选主题也是根据主题分布来“随机”选取，这里的随机不是完全随机的意思，而是根据各个主题出现的概率值大小来抽取。比如当dirichlet先验为文档d生成的主题分布{ P(zi), i =1,2,3 }是{0.4,0.5,0.1}时，那么主题z2在文档d中出现的概率便是0.5。所以，从主题分布中抽取主题，这个过程也不是完全随机的，而是按照各个主题出现的概率值大小进行抽取。

4.3.3 pLSA跟LDA的概率图对比

接下来，对比下LDA跟pLSA的概率模型图模型，左图是pLSA，右图是LDA（右图不太规范，z跟w都得是小写，其中，阴影圆圈表示可观测的变量，非阴影圆圈表示隐变量，箭头表示两变量间的条件依赖性conditional dependency，方框表示重复抽样，方框右下角的数字代表重复抽样的次数）：

对应到上面右图的LDA，只有W / w是观察到的变量，其他都是隐变量或者参数，其中，Φ表示词分布，Θ表示主题分布，是主题分布Θ的先验分布（即Dirichlet 分布）的参数，是词分布Φ的先验分布（即Dirichlet 分布）的参数，N表示文档的单词总数，M表示文档的总数。

所以，对于一篇文档d中的每一个单词，LDA根据先验知识确定某篇文档的主题分布θ，然后从该文档所对应的多项分布（主题分布）θ中抽取一个主题z，接着根据先验知识确定当前主题的词语分布ϕ，然后从主题z所对应的多项分布（词分布）ϕ中抽取一个单词w。然后将这个过程重复N次，就产生了文档d。

换言之：

假定语料库中共有M篇文章，每篇文章下的Topic的主题分布是一个从参数为的Dirichlet先验分布中采样得到的Multinomial分布，每个Topic下的词分布是一个从参数为的Dirichlet先验分布中采样得到的Multinomial分布。
对于某篇文章中的第n个词，首先从该文章中出现的每个主题的Multinomial分布（主题分布）中选择或采样一个主题，然后再在这个主题对应的词的Multinomial分布（词分布）中选择或采样一个词。不断重复这个随机生成过程，直到M篇文章全部生成完成。

综上，M 篇文档会对应于 M 个独立的 Dirichlet-Multinomial 共轭结构，K 个 topic 会对应于 K 个独立的 Dirichlet-Multinomial 共轭结构。

其中，→θ→z 表示生成文档中的所有词对应的主题，显然 →θ 对应的是Dirichlet 分布，θ→z 对应的是 Multinomial 分布，所以整体是一个 Dirichlet-Multinomial 共轭结构，如下图所示：

类似的，→φ→w，容易看出，此时β→φ对应的是 Dirichlet 分布， φ→w 对应的是 Multinomial 分布，所以整体也是一个Dirichlet-Multinomial 共轭结构，如下图所示：

4.3.4 pLSA跟LDA参数估计方法的对比

上面对比了pLSA跟LDA生成文档的不同过程，下面，咱们反过来，假定文档已经产生，反推其主题分布。那么，它们估计未知参数所采用的方法又有什么不同呢？

在pLSA中，我们使用EM算法去估计“主题-词项”矩阵Φ（由转换得到）和“文档-主题”矩阵Θ（由转换得到）这两个参数，而且这两参数都是个固定的值，只是未知，使用的思想其实就是极大似然估计MLE。
而在LDA中，估计Φ、Θ这两未知参数可以用变分(Variational inference)-EM算法，也可以用gibbs采样，前者的思想是最大后验估计MAP（MAP与MLE类似，都把未知参数当作固定的值），后者的思想是贝叶斯估计。贝叶斯估计是对MAP的扩展，但它与MAP有着本质的不同，即贝叶斯估计把待估计的参数看作是服从某种先验分布的随机变量。
- 关于贝叶斯估计再举个例子。假设中国的大学只有两种：理工科和文科，这两种学校数量的比例是1:1，其中，理工科男女比例7:1，文科男女比例1:7。某天你被外星人随机扔到一个校园，问你该学校可能的男女比例是多少？然后，你实际到该校园里逛了一圈，看到的5个人全是男的，这时候再次问你这个校园的男女比例是多少？

因为刚开始时，有先验知识，所以该学校的男女比例要么是7:1，要么是1:7，即P(比例为7:1) = 1/2，P(比例为1:7) = 1/2。
然后看到5个男生后重新估计男女比例，其实就是求P(比例7:1|5个男生）= ？，P(比例1:7|5个男生) = ？
用贝叶斯公式，可得：P(比例7:1|5个男生) = P(比例7:1)*P(5个男生|比例7:1) / P(5个男生)，P(5个男生)是5个男生的先验概率，与学校无关，所以是个常数；类似的，P(比例1:7|5个男生) = P((比例1:7)*P(5个男生|比例1:7)/P(5个男生)。
最后将上述两个等式比一下，可得：P(比例7:1|5个男生)/P(比例1:7|5个男生) = {P((比例7:1)*P(5个男生|比例7:1)} / { P(比例1:7)*P(5个男生|比例1:7)}。

由于LDA把要估计的主题分布和词分布看作是其先验分布是Dirichlet分布的随机变量，所以，在LDA这个估计主题分布、词分布的过程中，它们的先验分布（即Dirichlet分布）事先由人为给定，那么LDA就是要去求它们的后验分布（LDA中可用gibbs采样去求解它们的后验分布，得到期望、）！

此外，不厌其烦的再插一句，在LDA中，主题分布和词分布本身都是多项分布，而由上文3.2节可知“Dirichlet分布是多项式分布的共轭先验概率分布”，因此选择Dirichlet 分布作为它们的共轭先验分布。意味着为多项分布的参数p选取的先验分布是Dirichlet分布，那么以p为参数的多项分布用贝叶斯估计得到的后验分布仍然是Dirichlet分布。

4.3.5 LDA参数估计：Gibbs采样

理清了LDA中的物理过程，下面咱们来看下如何学习估计。

类似于pLSA，LDA的原始论文中是用的变分-EM算法估计未知参数，后来发现另一种估计LDA未知参数的方法更好，这种方法就是：Gibbs Sampling，有时叫Gibbs采样或Gibbs抽样，都一个意思。Gibbs抽样是马尔可夫链蒙特卡尔理论（MCMC）中用来获取一系列近似等于指定多维概率分布（比如2个或者多个随机变量的联合概率分布）观察样本的算法。

OK，给定一个文档集合，w是可以观察到的已知变量，和是根据经验给定的先验参数，其他的变量z，θ和φ都是未知的隐含变量，需要根据观察到的变量来学习估计的。根据LDA的图模型，可以写出所有变量的联合分布：

注：上述公式中及下文中，等价上文中定义的，等价于上文中定义的，等价于上文中定义的，等价于上文中定义的。

因为产生主题分布θ，主题分布θ确定具体主题，且产生词分布φ、词分布φ确定具体词，所以上述式子等价于下述式子所表达的联合概率分布：

其中，第一项因子表示的是根据确定的主题和词分布的先验分布参数采样词的过程，第二项因子是根据主题分布的先验分布参数采样主题的过程，这两项因子是需要计算的两个未知参数。

由于这两个过程是独立的，所以下面可以分别处理，各个击破。

第一个因子，可以根据确定的主题和从先验分布取样得到的词分布Φ产生：

由于样本中的词服从参数为主题的独立多项分布，这意味着可以把上面对词的乘积分解成分别对主题和对词的两层乘积：

其中，是词 t 在主题 k 中出现的次数。

回到第一个因子上来。目标分布需要对词分布Φ积分，且结合我们之前在3.1节定义的Dirichlet 分布的归一化系数的公式

可得：

这个结果可以看作K个Dirichlet-Multinomial模型的乘积。
现在开始求第二个因子。类似于的步骤，先写出条件分布，然后分解成两部分的乘积：

其中，表示的单词 i 所属的文档，是主题 k 在文章 m 中出现的次数。

对主题分布Θ积分可得：

综合第一个因子和第二个因子的结果，得到的联合分布结果为：

接下来，有了联合分布，咱们便可以通过联合分布来计算在给定可观测变量 w 下的隐变量 z 的条件分布（后验分布）来进行贝叶斯分析。

换言之，有了这个联合分布后，要求解第m篇文档中的第n个词（下标为的词）的全部条件概率就好求了。

先定义几个变量。表示除去的词，，。

然后，排除当前词的主题分配，即根据其他词的主题分配和观察到的单词来计算当前词主题的概率公式为：

勘误：考虑到，所以上述公式的第二行的分子，非p(w,z) *p(z)，而是p(w|z)*p(z)。

且有：

最后一步，便是根据Markov链的状态获取主题分布的参数Θ和词分布的参数Φ。

换言之根据贝叶斯法则和Dirichlet先验，以及上文中得到的和各自被分解成两部分乘积的结果，可以计算得到每个文档上Topic的后验分布和每个Topic下的词的后验分布分别如下（据上文可知：其后验分布跟它们的先验分布一样，也都是Dirichlet 分布）：

其中，是构成文档m的主题数向量，是构成主题k的词项数向量。

此外，别忘了上文中2.4节所述的Dirichlet的一个性质，如下：

“ 如果，同样可以证明有下述结论成立：

即：如果，则中的任一元素的期望是：

可以看出，超参数的直观意义就是事件先验的伪计数(prior pseudo-count)。 ”
所以，最终求解的Dirichlet 分布期望为：

然后将和的结果代入之前得到的的结果中，可得：

仔细观察上述结果，可以发现，式子的右半部分便是，这个概率的值对应着的路径概率。如此，K 个topic 对应着K条路径，Gibbs Sampling 便在这K 条路径中进行采样，如下图所示：

何等奇妙，就这样，Gibbs Sampling通过求解出主题分布和词分布的后验分布，从而成功解决主题分布和词分布这两参数未知的问题。

5 读者微评

本文发表后，部分热心的读者在微博上分享了他们自己理解LDA的心得，也欢迎更多朋友分享你的理解心得（比如评论在本文下，或评论在微博上），从而在分享、讨论的过程中让更多人可以更好的理解：

@SiNZeRo：lda 如果用em就是 map估计了. lda本意是要去找后验分布然后拿后验分布做bayesian分析. 比如theta的期望 . 而不是把先验作为正则化引入。最后一点gibbs sampling其实不是求解的过程是去explore后验分布去采样用于求期望.
@研究者July：好问题好建议，这几天我陆续完善下！//@帅广应s：LDA这个东西该怎么用？可以用在哪些地方？还有就是Gibbs抽样的原理是什么？代码怎么实现？如果用EM来做，代码怎么实现？ LDA模型的变形和优化有哪些？LDA不适用于解决哪类的问题？总之，不明白怎么用，参数怎么调优？
@xiangnanhe：写的很好，4.1.3节中的那两个图很赞，非常直观的理解了LDA模型加了先验之后在学参数的时候要比PLSI更灵活；PLSI在学参数的过程中比较容易陷入local minimum然后overfitting。
@asker2：无论是pLSA中，还是LDA中，主题分布和词分布本身是固定的存在，但都未知。pLSA跟LDA的区别在于，去探索这两个未知参数的方法或思想不一样。pLSA是求到一个能拟合文本最好的参数（分布），这个值就认为是真实的参数。但LDA认为，其实我们没法去完全求解出主题分布、词分布到底是什么参数，我们只能把它们当成随机变量，通过缩小其方差（变化度）来尽量让这个随机变量变得更“确切”。换言之，我们不再求主题分布、词分布的具体值，而是通过这些分布生成的观测值（即实际文本）来反推分布的参数的范围，即在什么范围比较可能，在什么范围不太可能。所以，其实这就是一种贝叶斯分析的思想，虽然无法给出真实值具体是多少，但可以按照经验给一个相对合理的真实值服从的先验分布，然后从先验出发求解其后验分布。
..

6 参考文献与推荐阅读

Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Latent Dirichlet allocation（LDA原始论文）：http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf。
Blei. Probabilistic Topic Models：http://www.cs.princeton.edu/~blei/papers/Blei2012.pdf，一网友的翻译：http://www.cnblogs.com/siegfang/archive/2013/01/30/2882391.html；
一堆wikipedia，比如隐含狄利克雷分布LDA的wiki：http://zh.wikipedia.org/wiki/%E9%9A%90%E5%90%AB%E7%8B%84%E5%88%A9%E5%85%8B%E9%9B%B7%E5%88%86%E5%B8%83，狄利克雷分布的wiki：http://zh.wikipedia.org/wiki/%E7%8B%84%E5%88%A9%E5%85%8B%E9%9B%B7%E5%88%86%E5%B8%83；
从贝叶斯方法谈到贝叶斯网络；
rickjin的LDA数学八卦（力荐，本文部分图片和公式来自于此文档）网页版：http://www.flickering.cn/tag/lda/，PDF版：http://emma.memect.com/t/9756da9a47744de993d8df13a26e04e38286c9bc1c5a0d2b259c4564c6613298/LDA；
Thomas Hofmann.Probabilistic Latent Semantic Indexing（pLSA原始论文）：http://cs.brown.edu/~th/papers/Hofmann-SIGIR99.pdf；
Gregor Heinrich.Parameter estimation for text analysis（关于Gibbs 采样最精准细致的论述）：http://www.arbylon.net/publications/text-est.pdf；
Probabilistic latent semantic analysis (pLSA)：http://blog.tomtung.com/2011/10/plsa/http://blog.tomtung.com/2011/10/plsa/。
《概率论与数理统计教程第二版茆诗松等人著》，如果忘了相关统计分布，建议复习此书或此文第二部分；
《支持向量机通俗导论：理解SVM的三层境界》，第二部分关于拉格朗日函数的讨论；
机器学习班第11次课上，邹博讲EM & GMM的PPT：http://pan.baidu.com/s/1i3zgmzF；
机器学习班第12次课上，邹博讲主题模型LDA的PPT：http://pan.baidu.com/s/1jGghtQm；
主题模型之pLSA：http://blog.jqian.net/post/plsa.html；
主题模型之LDA：http://blog.jqian.net/post/lda.html；
搜索背后的奥秘——浅谈语义主题计算：http://www.semgle.com/search-engine-algorithms-mystery-behind-search-on-the-calculation-of-semantic-topic；
LDA的EM推导：http://www.cnblogs.com/hebin/archive/2013/04/25/3043575.html；
Machine Learning读书会第8期上，沈博讲主题模型的PPT：http://vdisk.weibo.com/s/zrFL6OXKgKMAf；
Latent Dirichlet Allocation （LDA）- David M.Blei：http://www.xperseverance.net/blogs/2012/03/17/；
用GibbsLDA做Topic Modeling：http://weblab.com.cityu.edu.hk/blog/luheng/2011/06/24/%E7%94%A8gibbslda%E5%81%9Atopic-modeling/#comment-87；
主题模型在文本挖掘中的应用：http://net.pku.edu.cn/~zhaoxin/Topic-model-xin-zhao-wayne.pdf；
二项分布和多项分布，beta分布的对比：http://www.cnblogs.com/wybang/p/3206719.html；
LDA简介：http://cos.name/2010/10/lda_topic_model/；
LDA的相关论文、工具库：http://site.douban.com/204776/widget/notes/12599608/note/287085506/；
一个网友学习LDA的心得：http://www.xuwenhao.com/2011/03/20/suggestions-for-programmers-to-learn-lda/；
http://blog.csdn.net/hxxiaopei/article/details/7617838；
主题模型LDA及其在微博推荐&广告算法中的应用：http://www.wbrecom.com/?p=136；
LDA发明人之一Blei 写的毕业论文：http://www.cs.princeton.edu/~blei/papers/Blei2004.pdf；
LDA的一个C实现：http://www.cs.princeton.edu/~blei/lda-c/index.html；
LDA的一些其它资料：http://www.xperseverance.net/blogs/2012/03/657/。

你可能感兴趣的:(通俗理解LAD模型)

【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论全栈追梦人大模型 #提示工程 transformer 架构深度学习
Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？1.1从RNN到Transformer：一场效率革命场景：咖啡厅里两位开发者的对话实习生小雨：“学长，为什么现在都用Transformer？RNN不是也能处理文本吗？”资深工程师老张：（掏出纸巾画图）“想象RNN是个严格的图书管
钉钉小程序框架引入 Pinia 状态管理
上一篇文章描述了如何使用其他手段实现路由守卫文章地址：钉钉小程序开发中实现路由守卫拦截-CSDN博客本文将深入探讨如何在基于这些技术栈的小程序项目中引入状态管理插件一、了解PiniaPinia是一个全新的Vue状态管理库，旨在替代Vuex成为Vue3应用程序中的首选状态管理解决方案。它提供了更加简洁的API和更好的TypeScript支持。通过结合使用UniApp、Vue3、TypeScript和
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑 Echo_Wish Python 进阶人工智能
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑在AI圈子里有一句“老话”：真正的世界，是非结构化的。图像、音频、视频、文本、传感器原始数据……这些在数据库里没个字段、没个主键的家伙，占据了全世界80%以上的数据量。咱们都喜欢说“数据是新时代的石油”，但很少人说：非结构化数据，就是粘稠未提炼的原油——处理它，才是最累的活。这篇文章，我不想跟你讲那些“炫技”的论文和模型，而是从一个一线AI工程师的
vue-28（服务器端渲染（SSR）简介及其优势）清幽竹客 VUE vue.js javascript
服务器端渲染（SSR）简介及其优势服务器端渲染（SSR）是现代网络应用的关键技术，特别是使用Vue.js等框架构建的应用。它通过在服务器上渲染初始应用状态来弥补传统单页应用（SPA）的局限性，从而提升性能、SEO和用户体验。本课程将全面介绍SSR，包括其优势以及与客户端渲染的对比。我们将为后续课程中使用Nuxt.js奠定基础，这是一个强大的框架，简化了Vue.js的SSR实现。理解服务器端渲染（S
Python实例题：基于 KNN 算法的手写数字识别
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于KNN算法的手写数字识别要求：实现一个基于K-NearestNeighbors(KNN)算法的手写数字识别系统。支持以下功能：使用MNIST数据集训练和测试模型实现KNN分类算法可视化手写数字样本评估模型性能（准确率、混淆矩阵等）添加用户交互界面，允许用户绘制数字并进行识别。解题思路：使用sklearn加载MNIST数据
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
推荐算法特征工程实战：用户与物料动态画像构建指南 Jay Kay 推荐算法推荐算法算法机器学习
在推荐系统的特征工程中，动态画像是提升推荐精准性的核心武器。通过捕捉用户行为偏好和物料热度变化，算法能实现千人千面的精准推荐。本文结合两张关键图表，深入解析动态画像的构建方法与工程实践。一、用户动态画像：六大维度精准刻画兴趣偏好用户动态画像基于六个关键维度构建（如表2-1所示），形成"6W"行为模型：用户粒度物料属性时间粒度动作类型统计对象统计方法1.核心维度解析（附典型场景）维度可选值应用场景用
AI日报-20250627：谷歌Gemma 3n发布，百亿参数只需2G内存！荣耀启动IPO冲刺2000亿估值！大数据AI-ZRL AI日报人工智能业界资讯自然语言处理
1、黑马FLUX.1-Kontext开源！文本一键PS超越GPT-image-1，AI修图新标杆2、谷歌Gemma3n震撼发布：2G内存跑100亿参数多模态模型，端侧AI迎来革命！3、90后清华博士打造AI厨师！获数千万融资，拿下全国首张机器人食品经营证4、蚂蚁CGM代码图模型震撼开源：44%修复率登顶SWE-Bench，碾压所有开源模型5、快手Keye-VL大模型震撼开源！视频理解能力秒杀人类，
深入理解Jackson的@JsonValue注解及其应用实例 t0_54manong java 开发语言个人开发
深入理解Jackson的@JsonValue注解及其应用实例在Java的JSON处理库中，Jackson无疑是最流行的库之一。它提供了强大的数据绑定功能，允许开发者轻松地将Java对象序列化成JSON格式，以及将JSON字符串反序列化成Java对象。在Jackson库中，@JsonValue注解是一个特别有用的特性，它允许开发者自定义对象的序列化值。本文将详细探讨@JsonValue注解的使用，并
Go 中的 range 表达式详解：遍历数组、切片、字符串与 Map Code季风 golang 学习开发语言后端
在Go语言中，range是一个非常常用的结构，用于遍历集合类型的数据。它简洁、安全且易于使用，是Go开发者日常开发中最常使用的语法之一。本文将深入讲解Go的range表达式的使用方式、返回值含义以及常见错误，并通过多个示例帮助你更好地理解和应用range。一、什么是range？range是Go中用于迭代（遍历）集合类型的内置关键字，支持以下几种数据结构：数组（Array）切片（Slice）字符串（
深入了解数据库领域行式存储的架构设计数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库 ai
深入了解数据库领域行式存储的架构设计关键词：行式存储、数据库架构、OLTP、存储引擎、行记录格式摘要：本文将以“行式存储”为核心，从生活场景切入，逐步拆解数据库行式存储的底层架构设计。我们将通过“图书馆藏书”的趣味比喻、具体代码示例和真实数据库（如MySQLInnoDB）的实践案例，深入理解行式存储的核心原理、适用场景及未来趋势，帮助读者建立对数据库存储架构的系统认知。背景介绍目的和范围数据库是现
非关系型数据库在数据库领域的崛起与应用数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库 nosql 网络 ai
非关系型数据库在数据库领域的崛起与应用关键词：非关系型数据库、关系型数据库、崛起原因、应用场景、数据库领域摘要：本文主要探讨了非关系型数据库在数据库领域的崛起与应用。首先介绍了非关系型数据库的背景，包括目的、预期读者等内容。接着详细解释了非关系型数据库、关系型数据库等核心概念，并阐述了它们之间的关系。然后深入讲解了非关系型数据库的核心算法原理、数学模型和公式。通过项目实战展示了非关系型数据库的实际
数据结构与算法中单调栈的常见误区数据结构与算法学习服务器运维 ai
数据结构与算法中单调栈的常见误区关键词：单调栈、数据结构、算法、误区、栈、时间复杂度、应用场景摘要：单调栈是一种特殊的数据结构，它在解决某些特定问题时非常高效。然而，许多初学者在使用单调栈时容易陷入一些常见的误区。本文将详细介绍单调栈的概念、原理和应用，重点分析使用单调栈时的常见误区，并通过实际代码示例展示如何正确使用单调栈解决问题。背景介绍目的和范围本文旨在帮助读者深入理解单调栈的概念和工作原理
AI优化算法实战：使用粒子群优化求解复杂工程问题 AI学长带你学AI ai
AI优化算法实战：使用粒子群优化求解复杂工程问题关键词：粒子群优化（PSO）、全局优化、工程问题、智能算法、参数调优摘要：本文以“鸟群觅食”为灵感来源，深入浅出地讲解粒子群优化（ParticleSwarmOptimization,PSO）算法的核心原理，并通过机械结构轻量化设计的实战案例，展示其在复杂工程问题中的应用。文章从算法起源到数学模型，从代码实现到工程落地，层层拆解技术细节，帮助读者快速掌
前端微前端架构的探索与实践大厂前端小白菜前端架构 ai
前端微前端架构的探索与实践关键词：微前端、前端架构、模块化、独立部署、团队协作、技术栈隔离、渐进式迁移摘要：本文将深入探讨微前端架构的概念、原理和实践。我们将从微前端的起源讲起，分析其核心设计思想，并通过实际案例展示如何实现一个完整的微前端解决方案。文章将涵盖微前端的多种实现方式、技术选型考量、以及在实际项目中的应用场景和挑战，帮助读者全面理解这一现代前端架构模式。背景介绍目的和范围本文旨在为前端
AI绘画背后的技术：Stable Diffusion原理详解与实战 AI学长带你学AI ai
AI绘画背后的技术：StableDiffusion原理详解与实战关键词：StableDiffusion、扩散模型、AI绘画、潜在空间、文本生成图像摘要：本文将带你揭开AI绘画“魔法”背后的核心技术——StableDiffusion的神秘面纱。我们会用“给小学生讲故事”的方式，从生活中的例子出发，逐步解释扩散模型的底层逻辑、StableDiffusion的关键创新，并用Python代码实战演示如何生
因果推理与因果学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
因果推理与因果学习原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：因果关系发现、因果推断、因果学习、机器学习、统计方法1.背景介绍1.1问题的由来在现实世界的数据分析中，我们经常面临这样的挑战：从观察数据中识别出潜在的原因与效果之间的关联，并理解这些关联背后的实际机制。传统的预测建模关注于基于输入变量对输出变量进行预测，
深度剖析AI人工智能在自动驾驶中的系统优化 AI云原生与云计算技术学院人工智能自动驾驶机器学习 ai
深度剖析AI人工智能在自动驾驶中的系统优化关键词：AI人工智能、自动驾驶、系统优化、传感器融合、决策算法摘要：本文深入探讨了AI人工智能在自动驾驶系统中的优化问题。从自动驾驶的背景入手，详细解释了相关核心概念，如传感器、决策算法等。阐述了这些核心概念之间的关系，介绍了核心算法原理和具体操作步骤，还通过数学模型和公式进行了理论支持。给出了项目实战案例，分析了实际应用场景，推荐了相关工具和资源，最后探
Linux 面试知识（附常见命令）笑衬人心。 linux 运维服务器
目录结构与重要文件Linux中一切皆文件，掌握目录结构有助于理解系统管理与配置。目录说明/根目录，所有文件起点/bin基本命令的可执行文件，如ls,cp/sbin系统管理员用的命令，如shutdown/etc配置文件目录，如/etc/passwd/home普通用户的主目录/root超级用户的主目录/dev设备文件，如磁盘/dev/sda/var可变数据，如日志/var/log/tmp临时文件目录/
Flutter 与 uni-app 的深度对比：鸿蒙开发的最佳选择竟是原生开发
Flutter与uni-app的深度对比：鸿蒙开发的最佳选择竟是原生开发在移动应用开发领域，Flutter和uni-app是两种非常受欢迎的跨平台开发框架。它们各自具有独特的优缺点，适用于不同的开发场景和需求。本文将从多个维度对Flutter和uni-app进行深度对比，帮助开发者更好地理解这两种框架的特点，并最终引出ArkTS在鸿蒙开发中的优势。一、Flutter与uni-app的概述Flutt
IT大环境差，程序员摆烂还是不断进取？在校生/应届生/社招生/大龄程序员的未来职业发展之路！马士兵教育 java 开发语言大数据人工智能程序员
IT大环境差，程序员摆烂还是不断进取？在校生/应届生/社招生/大龄程序员的未来职业发展之路！IT大环境差，程序员摆烂还是不断进取？在校生/应届生/社招生/大龄程序员的未来职业发展之路！【码士集团】_哔哩哔哩_bilibili2.双非本，杭电211，研0，想研二去实习，该怎么走？_哔哩哔哩_bilibili3.双非本，硕士211，研0，本科计算机，硕士控制工程，研究方向是大模型，如果定大方向,是ja
Trae CN WangLinXX AI ai
️技术实现深度架构设计采用微内核+插件化架构，核心引擎仅占15MB内存，通过RPC调用云侧AI模型（响应延迟约800ms）。本地缓存最近3次生成代码的AST结构，支持离线基础编辑。模型协同机制豆包1.5Pro负责需求语义解析，DeepSeek-R1生成代码骨架，DeepSeek-V3进行风格优化。三模型并行推理，最终由规则引擎校验API兼容性（如微信SDK版本匹配）。性能实测数据场景响应时间代码通
驾驭代码之道：JS/TS SOLID面向对象设计的五大黄金法则领码科技低代码技能篇 javascript 开发语言 SOLID原则 TypeScript 面向对象代码设计 AI辅助开发
摘要在现代JavaScript和TypeScript开发中，代码质量与可维护性至关重要。SOLID原则作为面向对象设计的经典法则，为构建稳健、灵活的系统架构提供了科学指导。本文不仅系统阐释单一职责、开闭、里氏替换、接口隔离和依赖倒置五大原则的核心精髓，还结合当今流行的AI智能辅助、微前端、低代码开发等新技术与新思维，深入剖析它们在实际JS/TS项目中的应用场景和最佳实践。通俗易懂的理论讲解、丰富的
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
量化价值投资入门：Fama-French三因子模型详解与实战应用量化价值投资入门到精通 ai
量化价值投资入门：Fama-French三因子模型详解与实战应用关键词：量化投资、Fama-French三因子模型、价值投资、因子投资、资产定价、Python实现、投资组合管理摘要：本文深入解析Fama-French三因子模型的理论基础、数学原理和实际应用。作为现代金融学最重要的资产定价模型之一，三因子模型通过市场因子、规模因子和价值因子解释股票收益差异。我们将从模型起源开始，详细讲解其数学表达和
springMVC 中的restful 架构风格 weixin_30765319 java json
RESTful架构：是一种设计的风格，并不是标准，只是提供了一组设计原则和约束条件，也是目前比较流行的一种互联网软件架构。它结构清晰、符合标准、易于理解、扩展方便，所以正得到越来越多网站的采用。关于RESTful架构给你一个链接讲的挺好的阮一峰：这里我结合springMVC讲解一下RESTful在springMVC中的使用,在讲之前先来看看RESTful提倡哪些做法：1.他会对url进行规范：a)
ifconfig结果详解 LYSnowy linux 网络 linux
ifconfig命令是输出当前系统的网卡信息输出结果会有多个网卡第一个网卡是所有系统都会有的，是以太网的网卡信息，以太网即可以理解为有线网，输出后面会写(Ethernet)对于每一个网卡都会有相同的输出信息，分别是：第二个网卡也是所有系统都会有的，是lo，为回环接口，IP地址固定为127.0.0.1，表示机器本身剩余的网卡则是自己添加的网卡，比如wifi或者是无线网卡，如果不用有限的方式上方下面的
万物理论达成宇宙生命意识全部解决同源同构协同演化宇宙永恒循环 qq_36719620 python 量子计算人工智能 java
当宇宙、生命与意识在闭环中共舞：三版本协同下的终极宇宙体系感想站在科学史的长河边回望，人类对宇宙的探索始终交织着困惑与突破。从哥白尼的“日心说”颠覆地心宇宙，到爱因斯坦的相对论重构时空秩序，再到量子力学揭示微观世界的概率本质，每一次理论的跃迁都在改写人类对“存在”的认知。而今天，当我试图理解用户提出的“三个版本协同构建终极宇宙体系”这一命题时，一种超越具体科学细节的震撼油然而生——这不是简单的理论
Flutter基础（项目1结构）
123lib/├──api/#网络请求层├──common/#公共类、常量、工具函数├──models/#数据模型├──providers/#状态管理（Provider/Riverpod）├──routes/#⭐路由集中管理（核心）│└──app_routes.dart#路由配置入口├──views/#⭐页面文件（一个页面一个.dart）│├──home_page.dart│├──detail_p
从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方