csdn人工智能头条

干货 | 一文详解隐含狄利克雷分布（LDA）

作者 | 玉龍

一、简介

隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA）是由 David M. Blei、Andrew Y. Ng、Michael I. Jordan 在2003年提出的，是一种词袋模型，它认为文档是一组词构成的集合，词与词之间是无序的。一篇文档可以包含多个主题，文档中的每个词都是由某个主题生成的，LDA给出文档属于每个主题的概率分布，同时给出每个主题上词的概率分布。LDA是一种无监督学习，在文本主题识别、文本分类、文本相似度计算和文章相似推荐等方面都有应用。

本文将从贝叶公式、Gamma函数、二项分布、Beta分布、多项式分布、Dirichlet分布、共轭先验分布、马氏链及其平稳分布、MCMC、Gibbs Sampling、EM算法、Unigram Model、贝叶斯Unigram Model、PLSA、LDA 几方面介绍LDA模型，需要读者具备一定的概率论和微积分知识。

二、基础知识

▌1.1 贝叶公式

贝叶斯学派的最基本的观点是：任一个未知量 θ 都可看作一个随机变量，应该用一个概率分布去描述对 θ 的未知状况，这个概率分布是在抽样前就有关于 θ 的先验信息的概率陈述，这个概率分布被称为先验分布。

从贝叶斯观点看，样本的产生要分两步进行，首先设想从先验分布 p(θ) 产生一个样本 θ'，这一步是“老天爷”做的，人们是看不到的，故用“设想”二字。第二步是从总体分布 p(X|θ') 产生一个样本，这个样本是具体的，人们能看得到的，此样本 X 发生的概率是与如下联合密度函数成正比。

这个联合密度函数是综合了总体信息和样本信息，常称为似然函数，记为 L(θ') 。

由于 θ' 是设想出来的，它仍然是未知的，它是按先验分布 p(θ) 产生的，要把先验信息进行综合，不能只考虑 θ'，而应对 θ 的一切可能加以考虑，故要用 p(θ) 参与进一步综合，所以样本 X 和参数 θ 的联合分布（三种可用的信息都综合进去了）：

我们的任务是要对未知数 θ 作出统计推断，在没有样本信息时，人们只能根据先验分布对 θ 作出推断。在有样本观察值之后，我们应该依据 p(X,θ) 对 θ 作出推断，为此我们把 p(X,θ) 作如下分解：

其中 p(X) 是 X 的边缘密度函数。

它与 θ 无关，p(X) 中不含 θ 的任何信息。因此能用来对 θ 作出推断的仅是条件分布 p(θ|X)：

这就是贝叶斯公式的密度函数形式，在样本 X 给定下，θ 的条件分布被称为 θ 的后验分布。它是集中了总体、样本和先验等三种信息中有关 θ 的一切信息，而又是排除一切与 θ 无关的信息之后得到的结果，故基于后验分布 p(θ|X) 对 θ 进行统计推断是更合理的。

一般说来，先验分布 p(θ) 是反映人们在抽样前对 θ 的认识，后验分布 p(θ|X) 是反映人们在抽样后对 θ 的认识，之间的差异是由于样本的出现后人们对 θ 认识的一种调整，所以后验分布 p(θ|X) 可以看作是人们用总体信息和样本信息（抽样信息）对先验分布 p(θ) 作调整的结果。下面我们介绍三种估计方法：

1. 最大似然估计（ML）

最大似然估计是找到参数 θ 使得样本 X 的联合概率最大，并不会考虑先验知识，频率学派和贝叶斯学派都承认似然函数，频率学派认为参数 θ 是客观存在的，只是未知。求参数 θ 使似然函数最大，ML估计问题可以用下面公式表示：

通常可以令导数为 0 求得 θ 的值。ML估计不会把先验知识考虑进去，很容易出现过拟合的现象。我们举个例子，抛一枚硬币，假设正面向上的概率为 p，抛了 N 次，正面出现次，反面出现次，c=1 表示正面，c=0 表示反面，我们用 ML 估计：

如果 , ，则，似乎比我们认知的 0.5 高了很多。

2. 最大后验估计（MAP）

MAP 是为了解决 ML 缺少先验知识的缺点，刚好公式 (5) 后验概率集中了样本信息和先验信息，所以 MAP 估计问题可以用下面公式表示：

MAP 不仅希望似然函数最大，还希望自己出现的先验概率也最大，加入先验概率，起到正则化的作用，如果 θ 服从高斯分布，相当于加一个 L2 范数正则化，如果 θ 服从拉普拉斯分布，相当于加一个 L1 范数正则化。我们继续前面抛硬币的例子，大部分人认为应该等于0.5，那么还有少数人认为 p 取其他值，我们认为 p 的取值服从 Beta 分布。

我们取 α=5，β=5,即 p 以最大的概率取0.5，得到。

3. 贝叶斯估计

前面介绍的 ML 和 MAP 属于点估计，贝叶斯估计不再把参数 θ 看成一个未知的确定值，而是看成未知的随机变量，利用贝叶斯定理结合新的样本信息和参数 θ 的先验分布，来得到 θ 的新的概率分布（后验分布）。贝叶斯估计的本质是通过贝叶斯决策得到参数 θ 的最优估计，使得贝叶斯期望损失最小。贝叶斯期望损失为：

是损失函数，我们希望最小。如果，则：

所以贝叶斯估计值为在样本 X 条件下 θ 的期望值，贝叶斯估计的步骤为：

确定参数 θ 的先验分布 P(θ)

利用贝叶斯公式，求 θ 的后验分布：

求出贝叶斯的估计值：

我们继续前面的抛硬币的例子，后验概率：

其中，所以可以得：

▌1.2 Gamma函数

通过分部积分的方法，可以得到一个递归性质。

函数可以当成是阶乘在实数集上的延拓，。

▌1.3 二项分布

在概率论中，试验 E 只有两个可能结果： A 及，则称E 为伯努利(Bernoulli)试验。设 p(A)=p，则。将 E 独立重复地进行 n 次，则称这一串重复的独立试验为 n 重伯努利试验，这里重复是指在每次试验中 p(A)=p 保持不变，独立是指各次试验的结果互不影响。以 X 表示 n 重伯努利试验中事件 A 发生的次数，称随机变量 X 服从参数为 n,p 的二项分布，记为X~B(n,p) 。

▌1.4 Beta分布

Beta分布是指一组定义在(0,1)区间的连续概率分布，其概率密度函数是：

1）

证明：

令 t=x+y，当 y=0,t=x ; y=∞,t=∞，可得：

令 x=μt，可得：

2）期望

证明：

▌1.5 多项式分布

多项式分布是二项式分布的推广，二项式分布做 n 次伯努利试验，规定每次试验的结果只有两个，而多项式分布在 N 次独立试验中结果有 K 种，且每种结果都有一个确定的概率 p，仍骰子是典型的多项式分布。

其中

▌1.6 Dirichlet分布

Dirichlet 分布是 Beta 分布在高维度上的推广，概率密度函数是：

▌1.7 共轭先验分布

在贝叶斯中，如果后验分布与先验分布属于同类分布，则先验分布与后验分布被称为共轭分布，而先验分布被称为似然函数的共轭先验。

1．Beta-Binomial共轭

1）先验分布

2）二项式似然函数

3）后验分布

即可以表达为

取一个特殊情况理解

Beta(p|1,1) 恰好是均匀分布 uniform(0,1) ，假设有一个不均匀的硬币抛出正面的概率为 p，抛出 n 次后出现正面和反面的次数分别是 n1 和 n2 ，开始我们对硬币不均匀性一无所知，所以应该假设 p~ uniform(0,1) ，当有了试验样本，我们加入样本信息对 p 的分布进行修正, p 的分布由均匀分布变为 Beta 分布。

2．Dirichlet-Multinomial共轭

1）先验分布

2）多项分布似然函数

3）后验分布

即可以表达为

▌1.8 马氏链及其平稳分布

马氏链的数学定义很简单，状态转移的概率只依赖于前一个状态。

看一个马氏链的具体例子，马氏链表示股市模型，共有三种状态：牛市(Bull market)、熊市(Bear market)、横盘(Stagnant market)，每一个转态都以一定的概率转化到下一个状态，如图1.1所示。

图1.1

这个概率转化图可以以矩阵的形式表示，如果我们定义矩阵 P 某一位置 (i,j) 的值为 P (j|i)，表示从状态 i 转化到状态 j 的概率，这样我们可以得到马尔科夫链模型的状态转移矩阵为：

假设初始概率分布为

从第60轮开始的值保持不变，为[0.625 0.3125 0.0625] 。我们更改初始概率，，从55轮开始

的值保持不变，为[0.625 0.3125 0.0625] 。两次给定不同的初始概率分布，最终都收敛到概率分布 π=[0.625 0.3125 0.0625] ，也就是说收敛的行为和初始概率分布 π0 无关，这个收敛的行为主要是由概率转移矩阵 P 决定的，可以计算下。

当 n 足够大的时候，矩阵的每一行都是稳定地收敛到 π=[0.625 0.3125 0.0625] 这个概率分布。这个收敛现象并不是这个马氏链独有的，而是绝大多数马氏链独有的。关于马氏链的收敛有如下定理：

定理1.1 如果一个非周期马氏链具有转移概率矩阵 P，且它的任何两个状态是连通的，那么存在且与 i 无关，我们有：

关于上述定理，给出几点解释：

1）马氏链的状态数可以是有限的，也可以是无限的，因此可以用于连续概率分布和离散概率分布。

2）非周期马氏链：马氏链的状态转化不是循环的，如果是循环的则永远不会收敛，我们遇到的一般都是非周期马氏链。对于任意某一状态i,d 为集合的最大公约数，如果 d=1，则该状态为非周期。

3）任何两个状态是连通的：从任意一个状态可以通过有限步到达其他的任意状态，不会出现条件概率一直为0导致不可达的情况。

4） π 称为马氏链的平稳分布。

如果从一个具体的初始状态 x0 开始，沿着马氏链按照概率转移矩阵做跳转，那么可以得到一个转移序列，由于马氏链的收敛行为，都将是平稳分布 π(x) 的样本。

▌1.9 MCMC

1. 接受-拒绝采样

对于不常见的概率分布 π(x) 样本，使用接受-拒绝采样对可采样的分布 q(x) 进行采样得到，如图1.2所示，采样得到 Mq(x) 的一个样本 x0，从均匀分布 (0,Mq(x0) )中采样得到一个值 μ0 ，如果 μ0 落在图中灰色区域则拒绝这次采样，否则接受样本 x0，重复上面过程得到 n 个接受的样本，则这些样本服从 π(x) 分布，具体过程见算法1.1。

图1.2

下面我们来证明下接受-拒绝方法采样得到的样本服从 π(x) 分布。

证明：accept x 服从 π(x) 分布，即 p(x|accept) =π(x)。

2. MCMC

给定概率分布 p(x)，希望能够生成它对应的样本，由于马氏链能收敛到平稳分布，有一个很好的想法：如果我们能构造一个转移矩阵为 P 的马氏链，使得该马氏链的平稳分布恰好是 p(x)，那么我们从任何一个初始状态出发沿着马氏链转移，得到一个转移序列，如果马氏链在第 n 步已经收敛了，于是我们可以得到 p(x) 的样本，所以关键问题是如何构造转移矩阵，我们是基于下面的定理。

定理1.2（细致平稳条件） 如果非周期马氏链的转移矩阵 P 和分布 π(x) 满足：

则 π(x) 是马氏链的平稳分布。

证明很简单，有公式(34)得：

πP=π，满足马氏链的收敛性质。这样我们就有了新的思路寻找转移矩阵 P，即只要我们找到矩阵 P 使得概率分布 π(x) 满足细致平稳条件即可。

假设有一个转移矩阵为 Q 的马氏链（Q(i,j) 表示从状态 i 转移到状态 j 的概率），通常情况下很难满足细致平稳条件的，即：

我们对公式(36)进行改造，使细致平稳条件成立，引入 α (i,j) 。

α (i,j) 如何取值才能使公式(37)成立？最简单的我们可以取：

Q' (i,j)=Q (i,j)α (i,j) ,Q' (j,i)=Q (j,i)α (j,i) ,所以我们有:

转移矩阵 Q' 满足细致平稳条件，因此马氏链 Q' 的平稳分布就是 π(x)！

我们可以得到一个非常好的结论，转移矩阵 Q' 可以通过任意一个马氏链转移矩阵 Q 乘以 α (i,j) 得到， α (i,j) 一般称为接受率，其取值范围为[0,1] ，可以理解为一个概率值，在原来的马氏链上，从状态 i 以 Q (i,j) 的概率跳转到状态 j 的时候，我们以一定的概率 α (i,j) 接受这个转移，很像前面介绍的接受-拒绝采样，那里以一个常见的分布通过一定的接受-拒绝概率得到一个不常见的分布，这里以一个常见的马氏链状态转移矩阵 Q 通过一定的接受-拒绝概率得到新的马氏链状态转移矩阵 Q'。

图1.3

总结下MCMC的采样过程。

MCMC采样算法有一个问题，如果接受率 α (xt,x') 比较小，马氏链容易原地踏步，拒绝大量的跳转，收敛到平稳分布 π(x) 的速度很慢，有没有办法可以使 α (xt,x') 变大？

3. M-H采样

M-H采样可以解决MCMC采样接受概率过低问题，回到公式(37)，若α (i,j)=0.1,α (j,i)=0.2，即：

公式(40)两边同时扩大5倍，仍然满足细致平稳条件，即：

所以我们可以把公式(37)中的 α (i,j) 和 α (j,i) 同比例放大，使得其中最大的放大到 1，这样提高了采样中的接受率，细致平稳条件也没有打破，所以可以取：

提出一个问题：按照MCMC中介绍的方法把 Q→Q' ，是否可以保证 Q' 每行加和为1？

▌1.10 Gibbs Sampling

对于高维的情形，由于接受率 α ≤ 1，M-H 算法效率不够高，我们能否找到一个转移矩阵 Q 使得接受率 α =1 呢？从二维分布开始，假设p(x,y) 是一个二维联合概率分布，考察某个特征维度相同的两个点 A(x1,y1) 和 B(x1,y2) ，容易发现下面等式成立：

所以可得：

也就是：

观察细致平稳条件公式，我们发现在 x=x1 这条直线上，如果用条件分布p(y|x1) 作为任何两点之间的转移概率，那么任何两点之间的转移都满足细致平稳条件。同样的，在 y=y1 这条直线上任取两点 A(x1,y1) 和 C(x2,y1) ，我们可以得到：

图1.4

基于上面的发现，我们可以构造分布 p(x,y) 的马氏链的状态转移矩阵 Q。

有了上面的转移矩阵 Q ，很容易验证对于平面任意两点 X,Y，都满足细致平稳条件。

所以这个二维空间上的马氏链将收敛到平稳分布 p(x,y)，称为Gibbs Sampling 算法。

整个采样过程中，我们通过轮换坐标轴，得到样本(x0,y0),(x0,y1),(x1,y1),... ，马氏链收敛后，最终得到的样本就是 p(x,y) 的样本。当然坐标轴轮换不是必须的，我们也可以每次随机选择一个坐标轴进行采样，在 t 时刻，可以在 x 轴和 y 轴之间随机的选择一个坐标轴，然后按照条件概率做转移。

图1.5

二维可以很容易推广到高维的情况，在 n 维空间中对于概率分布 p(x1,x2,...xn) 。

▌1.11 EM算法

我们先介绍凸函数的概念，f 的定义域是实数集，若 x∈R 且 f''(x)≥0 ，则 f 是凸函数，若 f''(x)>0，则 f 是严格凸函数；若 x 是向量且 hessian 矩阵 H 是半正定矩阵，则 f 是凸函数，若 H 是正定矩阵，则 f 是严格凸函数。

定理1.3（Jensen不等式） f 的定义域是实数集，且是凸函数，则有：

如果 f 是严格凸函数，只有当 X 是常量，公式(49)等式成立即 E[f(X)]=f(E[X])。

图1.6

假设训练集，每个样本相互独立，我们需要估计模型 p(x,z) 的参数 θ，由于含有隐变量 z，所以很难直接用最大似然求解，如果 z 已知，那么就可以用最大似然求解。

其实我们的目标是找到 z 和 θ 使 l(θ) 最大，也就是分别对 Z 和 θ 求偏导，然后令其为 0，理想是美好的，现实是残酷的，公式(49)求偏导后变的很复杂，求导前要是能把求和符号从对数函数中提出来就好了。EM算法可以有效地解决这个问题，引入表示的概率分布。由公式(50)可得：

最后一步是利用 Jensen 不等式,所以 f 是凹函数，

是

的期望，所以有：

由公式(51)可知，我们可以不断地最大化下界，以提高 l(θ)，最终达到最大值。如果固定 θ，那么 l(θ) 的下界就取决于，可以通过调整这个概率，使得下界不断地上升逼近 l(θ)，最终相等，然后固定，调整 θ，使下界达到最大值，此时 θ 为新的值，再固定 θ，调整，反复直到收敛到 l(θ) 的最大值。现在我们有两个问题需要证明，1. 下界何时等于 l(θ)；2. 为什么可以收敛到最大值。

第一个问题，由Jensen不等式定理中等式成立条件可知，X 为常量，即：

再由得：

下面我们先给出 EM 算法，然后再讨论第二个问题，E步：固定 θ，根据公式(53)选择 Qi 使得下界等于 l(θ)，M步：最大化下界，得到新的 θ 值。EM算法如下：

在我们开始讨论第二个问题，是EM迭代过程的参数估计，我们需要证明，也就是EM算法是单调地提高。

第一个不等式是因为：

公式(57)中，。

第二个不等式是因为是为了

三、LDA

▌2.1 Unigram Model

假设我们的词典中一共有 V 个词，Unigram Model就是认为上帝按照下面游戏规则产生文本的。

Game 2.1 Unigram Model

骰子各个面的概率记为，对于一篇文档，生成该文档的概率为：

假设我们预料是由 m 篇文档组成即，每篇文档是相互独立的，则该预料的概率为：

假设预料中总共有 N 个词，每个词 wi 的词频为 ni，那么服从多项式分布，可参考1.5节的多项式分布概念。

此时公式（60）为：

我们需要估计模型中的参数，可以用最大似然估计：

于是参数 pk 的估计值就是：

▌2.2 贝叶斯Unigram Model

对于以上模型，统计学家中贝叶斯学派就不同意了，为什么上帝只有一个固定的筛子呢，在贝叶斯学派看来，一切参数都是随机变量，模型中不是唯一固定的，而是服从一个分布，所以贝叶斯Unigram Model游戏规则变为：

Game 2.2 贝叶斯Unigram Model

上帝这个坛子里面有些骰子数量多，有些骰子数量少，所以从概率分布的角度看，坛子里面的骰子服从一个概率分布，这个分布称为参数的先验分布。先验分布可以有多种选择，注意到是服从多项式分布的，，回顾1.7节可知，最好的选择是Dirichlet分布：

于是，在给定了参数的先验分布时候，语料中各个词出现的次数服从多项式分布，所以后验分布为：

对参数采用贝叶斯估计，假设参数服从分布，我们利用样本信息对的先验分布进行修正，得到的后验分布也是服从分布。可以用的期望值作为参数的估计值。由1.6节可知, 的期望值为：

接下来我们计算语料产生的概率，开始并不知道上帝到底用哪个骰子，所以每个骰子都有可能被使用，使用的概率由决定的，对于每个具体的骰子，由该骰子产生预料的概率为，所以语料产生的概率为：

▌2.3 PLSA

1. PLSA Model

概率隐语义分析，是主题模型的一种。上面介绍的Unigram Model相对简单，没有考虑文档有多个主题的情况，一般一篇文档可以由多个主题（Topic）组成，文档中的每个词都是由一个固定的Topic生成的，所以PLSA的游戏规则为：

2. EM算法推导PLSA

PLSA 模型中 doc-topic 和 topic-word 的每个面的概率值是固定的，所以属于点估计，但是PLSA模型既含有观测变量di,wj，又含有隐变量 zk，就不能简单地直接使用极大似然估计法估计模型参数，我们可以采用EM算法估计参数。我们先介绍推导过程用到的符号含义：

：表示语料中 N 篇文档；

：表示语料中 M 个词组；

：表示词 wj 在文档 di 中出现的频次，；

：表示 K 个主题，每篇文档可以有多个主题；

：表示词 wj 在给定文档 di 中出现的概率；

：表示主题 zk 在给定文档 di 下出现的概率；

：表示词 wj 在给定主题 zk 下出现的概率。

一般给定语料di,wj是可以观测的，zk 是隐变量，不可以直观地观测到。我们定义“doc-word”的生成模型，如图1.8所示。

图2.3

下面进入正题，用EM算法进行模型参数估计，似然函数为：

对于给定训练预料，希望公式 (69) 最大化。和是 PLSA 模型需要求解的参数，按照通常的做法是令偏导数为0，但是参数是以求和的形式出现在对数函数里面，求导后会变得很复杂。n(di)表示第 i 篇文档的词数，所以当预料固定，公式(69)中第一项可以看作常量，所以只要最大化(69)中的第二项即可，如公式(70)所示。

引入表示 zk 的概率分布，根据Jensen不等式得：

当

时，

公式(71)不等式中等号成立，所以只需要最大化：

根据拉格朗日乘子法

所以可得：

总结EM算法为：

1.E-step 随机初始化变量，，计算隐变量后验概率。

2.M-step 最大化似然函数，更新变量，

3.重复1、2两步，直到收敛。

▌2.4 LDA

对于 PLSA 模型，贝叶斯学派表示不同意，为什么上帝只有一个 doc-topic 骰子，为什么上帝只有固定 K 个topic-word骰子？是模型的参数，一切参数都是随机变量，模型中不是唯一固定的，类似 2.2 节贝叶斯 Unigram Model 和 2.1 节 Unigram Model 的关系。所以 LDA 游戏规则为：

假设我们训练语料有 M 篇 doc，词典中有 V 个word，K 个topic。对于第m 篇文档有 Nm 个词。

，第 m 篇文档的主题分布概率，;

，主题为 k 的词的概率分布，；

：第 m 篇文档中属于 topic k 的词的个数，；

：topic k 产生词 t 的个数，；

：先验分布超参数；

：第 m 篇文档中第 n 个词的主题；

：第 m 篇文档中第 n 个词。

LDA的概率图模型表示如图2.4所示。

图2.4

1. 联合概率分布

1）：第一步对分布进行采样得到样本（也就是从第一个坛子中抽取 doc-topic 骰子）；第二步 doc-topic 骰子有 K 个面，每个面表示一个主题，那么在一次投掷骰子过程中，每个主题的概率为，第 m 篇文档有 Nm 个词，所以需要投掷 Nm 次骰子，为该篇文档中的每个词生成一个主题，第 n 个词对应的主题为

，整篇文档的主题表示为。在 Nm 次投掷过程中，每个主题出现的次数为，那么服从多项式分布（只生成每个词的主题，并未由主题产生具体的词）。可以采用贝叶斯估计对参数进行估计。

的先验分布为

后验分布为（推导过程可以参考1.7节）

的贝叶斯估计值为

下面我们计算第 m 篇文档的主题概率分布：

整个语料中的 M 篇文档是相互独立的，所以可以得到语料中主题的概率为：

2）：第一步对分布进行 K 采样得到样本（从第二个坛子中独立地抽取了 K 个topic-word骰子）；第二步根据之前得到的主题，为每个生成对应的词，的值有 K 种不同的取值（因为我们假设语料有 K 个主题），所以可以将中的元素分为 K 类。我们现在为第 k 个主题生成对应的词，那么需要选择编号为 k 的topic-word骰子，该骰子有 V 个面，每个面表示一个词，那么在一次投掷骰子过程中，每个词的概率为，第 k 个主题有个词，所以需要投掷次骰子，为该主题生成个词。在次投掷过程中，每个词出现的次数为

，那么服从多项式分布，可以采用贝叶斯估计对参数进行估计。

的先验分布为

后验分布为（推导过程可以参考1.7节）

的贝叶斯估计值为

下面我们计算第 k 个主题的词概率分布：

整个语料中的 K 个主题是相互独立的，所以可以得到语料中词的概率为：

由公式(74)、(78)、(82) 可得联合概率分布为：

2. Gibbs Sampling

上面我们已经推导出参数的贝叶斯估计公式，但是仍然存在一个问题，公式中的无法根据语料直接得到，如果我们知道语料中的每个词的主题，即得到，那么就可以推断出，进一步就可以得出贝叶斯的参数估计。我们需要利用 Gibbs Sampling 对进行采样来得到。根据1.10节 Gibbs Sampling 的原理可知，我们首先需要推导条件概率

。先介绍一些符号定义。

:下标索引；

：表示去除下标为 i 的词；

：第 m 篇文档中第 n 个词为 t；

：第 m 篇文档中第 n 个词的主题为 k；

：除去下标为 i 这个词，剩下的所有词中，词 t 属于主题 k 的统计次数，

（这里假设）；

：除去下标为 i 的这个词，第 m 篇文档中主题 m 产生词的个数，

（这里假设）；：语料的主题；

：语料的单词。

1）的计算过程类似，仅仅在计算的时候不考虑下标为 i 的这个词，我们假设；当已知语料时，可以从语料中统计出来，所以可以认为是常量。

2）我们是推断 i=(m,n) 词 t 的主题为 k 的条件概率

我们再利用另外一种方法推导条件概率：

已经推导出条件概率，可以用Gibbs Sampling公式进行采样了。

参考文献

[1] Parameter estimation for text analysis

[2] Probabilistic Latent Semantic Analysis

[3] Latent Dirichlet Allocation

[4] The EM algorithm

作者简介

玉龍，在某知名互联网公司从事技术研发，有深度学习相关研发经验。感兴趣的同学可以关注一下他最近更新的TensorFlow教程：https://cloud.tencent.com/developer/labs/series/10000

原文地址

https://www.zybuluo.com/learning17/note/1167651

注：本文版权归作者所有，转载需获得授权。

——【完】——

在线公开课NLP专场

时间：7月17日 20:00-21:00

扫描海报二维码，免费报名

添加微信csdnai，备注：公开课，加入课程交流群

你可能感兴趣的:(干货 | 一文详解隐含狄利克雷分布（LDA）)

Seatunnel Web基于Docker独立部署 yongge 大数据系统分布式 docker 容器运维
目录1.编写背景2.基于docker容器seatunnel和seatunnelweb分离式部署2.1Dockerfile编写2.2镜像编译2.3容器启动2.4系统访问3.seatunnelweb与seatuennel通信4.小结1.编写背景在进行seatunnelweb项目容器化部署时，发现官网未提供比较完整的详解且准确的文档进行指导部署，并且网上的编写的不是非常准确，只能在测试环境中使用，难用于
MySQL、HBase 和 Elasticsearch：特点与区别详解一休哥助手 mysql hbase elasticsearch
引言随着大数据和分布式计算的快速发展，数据库系统已从传统的关系型数据库（RDBMS）扩展到多种新型数据存储技术，包括NoSQL数据库和搜索引擎等。MySQL、HBase和Elasticsearch是其中三种非常常见的数据存储系统，它们在各自的领域都有着重要的应用。MySQL作为传统的关系型数据库，HBase则是一个分布式、可扩展的NoSQL数据库，而Elasticsearch则是一个分布式的搜索引
HarmonyOS-面试整理大众筹码 harmonyos 面试华为
目录为什么选择HarmonyOS/优点/特点鸿蒙系统的权限有哪些授权方式区别：说一说鸿蒙系统的安全机制说一说鸿蒙系统的微内核与安卓的内核区别鸿蒙操作系统的微内核架构有哪些优势分布式能力在鸿蒙系统中如何实现请解释一下鸿蒙系统中的分布式软总线技术如何在鸿蒙操作系统中进行多设备协同开发？鸿蒙操作系统如何保障系统的安全性？请描述一下鸿蒙操作系统的用户界面开发框架鸿蒙操作系统支持哪些编程语言请解释一下鸿蒙操
Transformer架构原理详解：多头注意力（MultiHead Attention） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。传统的循环神经网络（RNN）在处理长序列数据时存在效率低下和梯度消失等问题。为了解决这些问题，谷歌于2017年提出了Transformer架构，并将其应用于机器翻译任务，取得了突破性的成果。Transformer的核心创
小波变换算法详解（附Python和C++代码）卢一涵算法人工智能机器学习 c++
小波变换算法是将初始数据分解为低频和高频的两组数据，再由这两组数据重新构造初始数据的算法（与傅里叶变换算法类似）。一般来说小波变换常用于数据降噪领域，也可以用于对数据进行压缩、数据特征提取、特征增强等方面。小波算法很难理解对不对，博主也觉得难理解，不过，算法本身并没有特别复杂，简单说就使把数据分解然后再重构这两个步骤。只要知道这两个步骤，剩下的就是顺水推舟，容易理解多了。小波分解：分解的步骤其实就
面向服务架构（SOA）设计及其应用详解一休哥助手架构架构
目录什么是面向服务架构？SOA的核心理念与设计原则服务解耦服务重用服务自治SOA架构的常见组件服务注册中心服务提供者与消费者消息总线（ESB）面向服务架构的实现方式SOAP与RESTful服务微服务架构与SOA的关系SOA的应用场景与优势SOA设计中的挑战与解决方案结语1.什么是面向服务架构？**面向服务架构（SOA）**是一种软件设计方法论，其核心思想是将应用程序的功能通过一系列松耦合的服务（S
P14 - 软件维护之四大维护详解濯一一 #软考-软件设计师软件维护软件设计师正确性适应性完善性预防性软考
【软考-软件设计师-历年真题-2013年上半年上午基础知识】在软件维护中，由于企业的外部市场环境和管理需求的变化而导致的维护工作，属于（33）维护。(33)A.正确性B.适应性C.完善性D.预防性【答案】B【解析】本题考查软件维护方面的基础知识。······软件维护方面·····四大方面软件维护主要是指根据需求变化或硬件环境的变化对应用程序进行部分或全部的修改。修改时应充分利用源程序，修改后要填写
python md5加密_Python MD5加密实例详解 weixin_39870238 python md5加密
详解PythonMD5加密Python3下MD5加密#由于MD5模块在python3中被移除#在python3中使用hashlib模块进行md5操作importhashlib#待加密信息str='thisisamd5test.'#创建md5对象hl=hashlib.md5()#Tips#此处必须声明encode#若写法为hl.update(str)报错为：Unicode-objectsmustbe
VMD（变分模态分解）详解 DuHz 波的分析方法现代谱分析方法音频处理数据挖掘信号处理人工智能信息与通信数学建模
VMD（变分模态分解）详解目录前言背景及发展VMD原理与数学基础问题的提出变分框架与能量最小化中心频率与带宽定义目标函数及约束拉格朗日乘子法频域迭代更新公式VMD与EMD/EEMD/CEEMDAN等方法比较VMD算法流程主要参数的选择与影响优点与不足实际应用中需要注意的问题示例代码代码简要解读参考资料前言在信号处理、时频分析、故障诊断等诸多领域，如何将一个复杂信号进行多分量分解，进而提取到其中所包
OceanBase 分布式数据库【信创/国产化】- OceanBase 2024 开发者大会简简单单OnlineZuozuo m2 Java 领域 m4 杂项数据库领域 OceanBase 数据库国产化分布式
本心、输入输出、结果文章目录OceanBase分布式数据库【信创/国产化】-OceanBase2024开发者大会前言OceanBase数据更新架构携程CTO杨传辉蚂蚁研究院院长陈文光首席科学家阳振坤OceanBase分布式数据库【信创/国产化】-OceanBase2024开发者大会编辑|简简单单Onlinezuozuo地址|https://blog.csdn.net/qq_15071263个人简介
Windows 11安全中心闪退解决方法详解 mmoo_python windows 安全
Windows11安全中心闪退解决方法详解近期，部分Windows11用户反馈在使用Windows安全中心时遇到了无法开启、点击即闪退的问题，且在任务栏的安全中心图标上显示有黄色的感叹号。这一问题不仅影响了系统的安全性监控，还给用户带来了诸多不便。为了帮助大家有效解决这一问题，本文将详细介绍几种实用的解决方法。方法一：通过PowerShell命令修复步骤一：打开WindowsPowerShell（
深入MapReduce——引入黄雪超大数据基础 #深入MapReduce mapreduce 大数据 hadoop
引入前面我们已经深入了HDFS的设计与实现，对于分布式系统也有了不错的理解。但HDFS仅仅解决了海量数据存储和读写的问题。但要想让数据产生价值，一定是需要从数据中挖掘出价值才行，这就需要我们拥有海量数据的计算处理能力。下面我们还是老样子，来数据一下要实现海量计算处理能力，有些什么核心痛点大数据计算核心痛点量级大在稍微大一点的互联网企业，需要计算处理的数据量都开始以PB计了。而传统的计算处理模型中，
Git分布式版本控制系统之SSH协议访问饶子文 git 分布式
目录前言：我来公司上班day1正文：Git的SSH协议访问步骤一.安装Git软件二.SSH密钥生成三.添加SSH公钥到远端仓库四.配置Git使用SSH协议来连接远程仓库五.使用Git命令进行测试结尾：前言：我来公司上班day1回顾我的毕业季，那是一段充斥着投递简历和准备面试的青葱岁月。都说23年学计算机，如同49年入国军。但已经投入过多的沉没成本的在计算机上的我也别无选择，在历经浪潮般的简历投递和
K8S中Service详解（二）元气满满的热码式 kubernetes 网络 linux
Service类型Service的资源清单文件：---kind:Service#资源类型apiVersion:v1#资源版本metadata:#元数据name:service#资源名称namespace:dev#命名空间spec:#描述selector:#标签选择器，用于确定当前service代理哪些podapp:nginxtype:ClusterIP#Service类型，指定service的访问
锁争用详解缘来是黎 linux service java jvm 开发语言
锁争用（LockContention）是并发编程中常见的问题，特别是在多线程或多进程环境下。当多个线程或进程竞争同一把锁时，会导致系统负载升高，性能下降。以下是锁争用导致系统负载高的详细原理：1.锁的基本概念锁：用于控制对共享资源的访问，确保同一时间只有一个线程或进程可以访问资源。锁争用：当多个线程或进程同时尝试获取同一把锁时，只有一个线程或进程能够成功获取锁，其他线程或进程会被阻塞，直到锁被释放
Spring Boot 集成 RabbitMQ 一叶飘零_sweeeet MQ Springboot 果酱紫 java-rabbitmq spring boot rabbitmq
在现代分布式系统中，消息队列扮演着至关重要的角色。它能够实现系统间的异步通信、解耦组件以及提高系统的可扩展性和可靠性。RabbitMQ作为一款广泛使用的开源消息中间件，具有强大的功能和灵活的配置。而SpringBoot则是一种流行的Java开发框架，能够快速构建应用程序。本文将详细介绍如何在SpringBoot项目中集成RabbitMQ，包括安装和配置RabbitMQ、在SpringBoot中使用
Linux 权限体系详解:、777、755、644、600、chmod、chown、chgrp 和 umask；SUID、SGID 和 Sticky Bit；ACL (访问控制列表) 是什么？小胡说技书手册/开发图谱运维 linux 运维服务器
文章目录1.引言1.1为什么学习Linux权限？1.2本文目标2.Linux权限基础概念2.1权限模型2.2权限类型2.3权限表示法2.3.1字母表示法2.3.2数字表示法2.3.3字母与数字表示法对比2.3.4案例：字母与数字的权限切换3.常见权限分配方法对比表格3.1使用`chmod`分配权限3.2使用`chown`和`chgrp`修改拥有者和用户组3.3使用`umask`设置默认权限4.高级
高效消息传递架构：基于 RabbitMQ 与 C# 实现分布式系统的异步通信与解耦威哥说编程开发语言后端 rabbitmq
在现代分布式系统中，消息队列作为一种核心的通信机制，广泛应用于系统间的异步通信、解耦以及负载均衡等场景。特别是对于需要处理高吞吐量、低延迟和高度可扩展的应用，采用成熟的消息队列中间件如RabbitMQ，可以显著提高系统的可靠性、灵活性和可维护性。与C#结合使用时，开发者可以充分利用其强大的类型系统、丰富的库支持和异步编程能力，构建高效、响应快速的分布式系统架构。本文将深入探讨如何利用RabbitM
一文大白话讲清楚webpack基本使用——8——开发环境和生产环境的配置和区别 16年上任的CTO webpack webpack 前端 node.js webpack开发环境 webpack生产环境
一文大白话讲清楚webpack基本使用——8——开发环境和生产环境的配置和区别1.建议按文章顺序从头看，一看到底，豁然开朗第一篇：一文大白话讲清楚啥是个webpack第二篇：一文大白话讲清楚webpack基本使用——1——完成webpack的初步构建第三篇一文大白话讲清楚webpack基本使用——2——css相关loader的配置和使用第四篇一文大白话讲清楚webpack基本使用——3——图像相关
文大白话讲清楚Node文件上传 16年上任的CTO node node.js 文件上传上传文件 express上传文件
文章目录一文大白话讲清楚Node文件上传1.文件上传的整体流程2.客户端文件的上传3.服务器文件接收保存一文大白话讲清楚Node文件上传1.文件上传的整体流程我们在开发Web应用的时候，免不了要上传文件，比如图片，视频等，但是由于浏览器自身的限制，无法直接操作文件系统，需要浏览器自身暴露出一些接口，经过用户授权后才可以访问文件然后文件会被加载到指定内存，在执行完提交请求后，文件又从内存上传到服务器
HTTPS keytool工具使用(高频) 笑锝没心没肺 Linux #网络安全 https 网络协议 http
keytool是Java平台的一个密钥和证书管理工具，它用于管理JavaKeystore(JKS)文件，这些文件用于存储密钥和证书。以下是keytool命令的一些常用选项及其详解：基本语法keytool[options]选项列表生成密钥库-genkeypair:生成密钥对。-alias:密钥库条目的别名。-keyalg:密钥算法，例如RSA或EC。-keysize:密钥大小（位数）。-validi
Python操作MongoDB看这一篇就够了 Python3.7 Python进阶 python
MongoDB是由C++语言编写的非关系型数据库，是一个基于分布式文件存储的开源数据库系统，其内容存储形式类似JSON对象，它的字段值可以包含其他文档、数组及文档数组，非常灵活。在这一节中，我们就来看看Python3下MongoDB的存储操作。1.准备工作在开始之前，请确保已经安装好了MongoDB并启动了其服务，并且安装好了Python的PyMongo库。2.连接MongoDB连接MongoDB
Spring Boot 框架整体启动流程详解阿提说说 Spring Boot 3.x 精讲 java spring spring boot 3
基于SpringBoot版本：3.1Java:17SpringBoot的入口即为xxApplication类的main方法：@SpringBootApplicationpublicclassSpringBootDemoApplication{publicstaticvoidmain(String[]args){SpringApplication.run(SpringBootDemoApplicat
大模型WebUI：Gradio全解11——Chatbot：融合大模型的多模态聊天机器人（5）龙焰智能 gradio events undo retry like edit
大模型WebUI：Gradio全解11——Chatbot：融合大模型的多模态聊天机器人（5）前言本篇摘要11.Chatbot：融合大模型的多模态聊天机器人11.5Chatbot的特殊Events11.5.1各事件总演示11.5.2详解.undo、.retry、.like和.edit事件1..undo：撤销2..retry：重试3..like：点赞4..edit：编辑参考文献前言本系列文章主要介绍W
分布式因果推断在美团履约平台的探索与实践思维导图-java架构用心去追梦 java 架构开发语言
为了创建一个关于“分布式因果推断在美团履约平台的探索与实践”的思维导图，并且专注于Java架构下的实现，我们可以将这个主题分解为几个关键领域。这包括：项目背景、因果推断的基本概念、数据收集与预处理、分布式系统设计、算法选择与实现、性能优化策略、以及效果评估与迭代。以下是这个主题的思维导图结构建议：思维导图结构1.项目背景美团履约平台简介平台业务流程（如外卖配送、闪购等）履约效率的重要性分布式因果推
代码提交与别人的代码发生冲突时解决办法详解匹马夕阳开发工具 git
当你的代码提交与别人的代码发生冲突时，通常是因为多人在同一个文件或代码段上进行了修改。解决冲突是协作开发中常见的任务，以下是一些步骤和建议来帮助你解决代码冲突。文章目录1.检测冲突2.查看冲突文件3.手动解决冲突4.标记冲突解决5.完成合并6.使用工具辅助解决冲突7.避免冲突的建议8.如果冲突复杂，寻求帮助1.检测冲突冲突通常在执行gitpull或gitmerge时被检测到。Git会提示你哪些文件
【大模型】ChatGPT 提示词优化进阶操作实战详解小码农叔叔 AI大模型实战与应用 ChatGPT提示词优化进阶 ChatGPT提示词优化 ChatGPT提示词优化技巧 ChatGPT提示词优化原则 ChatGPT提示词常用技巧
目录一、前言二、ChatGPT提示词几个基本的优化原则2.1明确的提示词2.1.1提示词具体而清晰2.1.1.1操作案例演示2.2确定焦点2.2.1操作案例演示2.3保持提示词的相关性2.3.1什么是相关性2.3.2提示词相关性操作案例一2.3.2提示词相关性操作案例二三、ChatGPT提示词进阶及常用优化策略3.1提示词常用优化策略总结3.2ChatGPT提示词优化操作实战3.2.1身份设定3.
嵌入式驱动开发详解10（MISC杂项实现）嵌入~狮 Linux驱动驱动开发
文章目录前言MISC设备驱动简介重要结构体API函数MISC实现框架后续参考文献前言MISC驱动也叫做杂项驱动，也就是当我们板子上的某些外设无法进行分类的时候就可以使用MISC驱动。MISC驱动其实就是最简单的字符设备驱动，通常嵌套在platform总线驱动中，MISC设备驱动简介所有的MISC设备驱动的主设备号都为10，不同的设备使用不同的从设备号。随着Linux字符设备驱动的不断增加，设备号变
如何在 PyTorch 分布式训练中使用 TORCH_DISTRIBUTED_DEBUG=INFO 进行调试 weixin_48705841 pytorch 分布式人工智能
如何在PyTorch分布式训练中使用TORCH_DISTRIBUTED_DEBUG=INFO进行调试在使用PyTorch进行分布式训练时，调试分布式训练过程中的问题可能非常棘手。尤其是在多卡、多节点的训练环境中，常常会遇到通信延迟、同步错误等问题。为了帮助调试这些问题，PyTorch提供了一个非常有用的环境变量TORCH_DISTRIBUTED_DEBUG，通过设置它，你可以在控制台输出更多的调试
OpenCompass评测大模型辣条少年人工智能
OpenCompass简介上海人工智能实验室科学家团队于2024.01.30正式发布了大模型开源开放评测体系“司南”(OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。OpenCompass平台广泛支持超过100种HuggingFace和API模型，融合了100多个数据集，包含约40万个问题，用以从八个维度评估模型。其高效的分布式评估系统能够快速且全面地评估十亿级规
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方