TopicModel主题模型LDA中的数学模型

http://blog.csdn.net/pipisorry/article/details/42672935

了解LDA需要明白如下数学原理：

一个函数：gamma函数

四个分布：二项分布、多项分布、beta分布、Dirichlet分布

一个概念和一个理念：共轭先验和贝叶斯框架

两个模型：pLSA、LDA（文档-主题，主题-词语）

一个采样：Gibbs采样

1.gamma函数

Gamma函数

Γ (x) = \int \infty 0 t x - 1 e - t d t

通过分部积分的方法，可以推导出这个函数有如下的递归性质

Γ (x + 1) = x Γ (x)

于是很容易证明， Γ(x) 函数可以当成是阶乘在实数集上的延拓，具有如下性质

Γ (n) = (n - 1)!

gamma函数是如何找到的:

1728年，哥德巴赫在考虑数列插值的问题，通俗的说就是把数列的通项公式定义从整数集合延拓到实数集合，例如数列 1,4,9,16,⋯ 可以用通项公式 n2 自然的表达，即便 n 为实数的时候，这个通项公式也是良好定义的。直观的说也就是可以找到一条平滑的曲线 y=x2 通过所有的整数点 (n,n2) ，从而可以把定义在整数集上的公式延拓到实数集合。一天哥德巴赫开始处理阶乘序列 1,2,6,24,120,720,⋯ ,我们可以计算 2!,3! , 是否可以计算 2.5! 呢？我们把最初的一些 (n,n!) 的点画在坐标轴上，确实可以看到，容易画出一条通过这些点的平滑曲线。

但是哥德巴赫无法解决阶乘往实数集上延拓的这个问题，于是写信请教尼古拉斯.贝努利和他的弟弟丹尼尔.贝努利，由于欧拉当时和丹尼尔.贝努利在一块，他也因此得知了这个问题。而欧拉于1729 年完美的解决了这个问题，由此导致了 Γ 函数的诞生。
事实上首先解决 n! 的插值计算问题的是丹尼尔.贝努利，他发现，如果 m,n 都是正整数，如果 m→∞ ，有

1 \cdot 2 \cdot 3 \dots m ( 1 + n ) ( 2 + n ) \dots ( m - 1 + n ) (m + n 2) n - 1 \to n!

于是用这个无穷乘积的方式可以把

n! 的定义延拓到实数集合。例如，取

n=2.5 ,

m 足够大，基于上式就可以近似计算出

2.5! 。

欧拉也偶然的发现 n! 可以用如下的一个无穷乘积表达

[(2 1) n 1 n + 1] [(3 2) n 2 n + 2] [(4 3) n 3 n + 3] \dots = n! (*) (1)

用极限形式，这个式子整理后可以写为

lim m \to \infty 1 \cdot 2 \cdot 3 \dots m ( 1 + n ) ( 2 + n ) \dots ( m + n ) (m + 1) n = n! (* *) (2)

左边可以整理为

= = = 1 \cdot 2 \cdot 3 \dots m ( 1 + n ) ( 2 + n ) \dots ( m + n ) (m + 1) n 1 \cdot 2 \cdot 3 \dots n \cdot ( n + 1 ) ( n + 2 ) \dots m ( 1 + n ) ( 2 + n ) \dots m \cdot ( m + 1 ) n ( m + 1 ) ( m + 2 ) \dots ( m + n ) n! ( m + 1 ) n ( m + 1 ) ( m + 2 ) \dots ( m + n ) n! \prod k = 1 n m + 1 m + k \to n! (m \to \infty)

所以 (*)、(**)式都成立。

欧拉开始尝试从一些简单的例子开始做一些计算，看看是否有规律可循，欧拉极其擅长数学的观察与归纳。当 n=1/2 的时候，带入(*)式计算，整理后可以得到

(1 2)! = 2 \cdot 4 3 \cdot 3 \cdot 4 \cdot 6 5 \cdot 5 \cdot 6 \cdot 8 7 \cdot 7 \cdot 8 \cdot 10 9 \cdot 9 \dots - - - - - - - - - - - - - - - - - - - - - - - \sqrt

然而右边正好和著名的 Wallis 公式关联。Wallis 在1665年使用插值方法计算半圆曲线

y=x(1−x)−−−−−−−√ 下的面积(也就是直径为1的半圆面积)的时候，得到关于

π 的如下结果，

2 \cdot 4 3 \cdot 3 \cdot 4 \cdot 6 5 \cdot 5 \cdot 6 \cdot 8 7 \cdot 7 \cdot 8 \cdot 10 9 \cdot 9 \dots = π 4

于是，欧拉利用 Wallis 公式得到了如下一个很漂亮的结果

(1 2)! = π \sqrt 2

欧拉看到

(12)! 中居然有

π , 对数学家而言，有

π 的地方必然有和圆相关的积分。由此欧拉猜测

n! 一定可以表达为某种积分形式，于是欧拉开始尝试把

n! 表达为积分形式。虽然Wallis 的时代微积分还没有发明出来，Wallis 是使用插值的方式做推导计算的，但是Wallis 公式的推导过程基本上就是在处理积分

∫10x12(1−x)12dx ，受 Wallis 的启发，欧拉开始考虑如下的一般形式的积分

J (e, n) = \int 10 x e (1 - x) n d x

此处n 为正整数，

e 为正实数。利用分部积分方法，容易得到

J (e, n) = n e + 1 J (e + 1, n - 1)

重复使用上述迭代公式，最终可以得到

J (e, n) = 1 \cdot 2 \dots n ( e + 1 ) ( e + 2 ) \dots ( e + n + 1 )

于是欧拉得到如下一个重要的式子

n! = (e + 1) (e + 2) \dots (e + n + 1) \int 10 x e (1 - x) n d x

接下来，欧拉使用了一点计算技巧，取

e=f/g 并且令

f→1,g→0 ,
然后对上式右边计算极限(极限计算的过程此处略去，可见参考文献吧)，于是欧拉得到如下简洁漂亮的结果：

n! = \int 10 (- log t) n d t

欧拉成功的把

n! 表达为了积分形式！如果我们做一个变换

t=e−u ,就可以得到我们 常见的Gamma 函数形式

n! = \int \infty 0 u n e - u d u

于是,利用上式把阶乘延拓到实数集上，我们就得到 Gamma 函数的一般形式

Γ (x) = \int 10 (- log t) x - 1 d t = \int \infty 0 t x - 1 e - t d t

为何 Gamma 函数被定义为 Γ(n)=(n−1)! :

稍微修正一下，把Gamma 函数定义中的 tx−1 替换为 tx

Γ (x) = \int \infty 0 t x e - t d t

这不就可以使得

Γ(n)=n! 了嘛。欧拉最早的Gamma函数定义还真是如上所示，选择了

Γ(n)=n! ，可是欧拉不知出于什么原因，后续修改了 Gamma 函数的定义，使得

Γ(n)=(n−1)! 。而随后勒让德等数学家对Gamma 函数的进一步深入研究中，认可了这个定义，于是这个定义就成为了既成事实。有数学家猜测，一个可能的原因是欧拉研究了如下积分

B (m, n) = \int 10 x m - 1 (1 - x) n - 1 d x

这个函数现在称为Beta 函数。如果Gamma 函数的定义选取满足

Γ(n)=(n−1)! , 那么有

B (m, n) = Γ ( m ) Γ ( n ) Γ ( m + n )

非常漂亮的对称形式。可是如果选取

Γ(n)=n! 的定义，令

E (m, n) = \int 10 x m (1 - x) n d x

则有

E (m, n) = Γ ( m ) Γ ( n ) Γ ( m + n + 1 )

这个形式显然不如

B(m,n) 优美，而数学家总是很在乎数学公式的美感的。

更多的 Gamma 函数的历史，推荐阅读

Philip J. Davis, Leonhard Euler’s Integral: A Historical Profile of the Gamma Function
Jacques Dutka, The Early History of the Factorial Function
Detlef Gronnau, Why is the gamma function so as it is?

more about gamma func：

Gamma 函数欣赏

[火光摇曳]神奇的伽玛函数

2.从二项分布到Gamma 分布

Gamma 函数在概率统计中频繁现身，包括常见的统计学三大分布( t 分布， χ2 分布， F 分布)、Beta分布、 Dirichlet 分布的密度公式中都有 Gamma 函数的身影；当然发生最直接联系的概率分布是直接由 Gamma 函数变换得到的 Gamma 分布。对Gamma 函数的定义做一个变形，就可以得到如下式子

\int \infty 0 x α - 1 e - x Γ ( α ) d x = 1

于是，取积分中的函数作为概率密度，就得到一个形式最简单的Gamma 分布的密度函数

G a m m a (x | α) = x α - 1 e - x Γ ( α )

如果做一个变换

x=βt , 就得到Gamma 分布的更一般的形式

G a m m a (t | α, β) = β α t α - 1 e - β t Γ ( α )

其中 α 称为 shape parameter, 主要决定了分布曲线的形状;而

β 称为 rate parameter 或者inverse scale parameter (

1β 称为scale parameter),主要决定曲线有多陡。

Gamma(t|α,β) 分布图像

在概率统计领域，众多统计分布和Gamma 分布有密切关系。指数分布和 χ2 分布都是特殊的Gamma 分布。另外Gamma 分布作为先验分布是很强大的，在贝叶斯统计分析中被广泛的用作其它分布的先验。如果把统计分布中的共轭关系类比为人类生活中的情侣关系的话，那指数分布、Poission分布、正态分布、对数正态分布都可以是 Gamma 分布的情人。

接下来的内容中中我们主要关注 β=1 的简单形式的 Gamma 分布。

Gamma 分布首先和 Poisson 分布、Poisson 过程发生密切的联系。我们容易发现Gamma 分布的概率密度和 Poisson 分布在数学形式上具有高度的一致性。参数为 λ 的Poisson 分布，概率写为

P o i s s o n (X = k | λ) = λ k e - λ k !

在 Gamma 分布的密度中取

α=k+1 得到

G a m m a (x | α = k + 1) = x k e - x Γ ( k + 1 ) = x k e - x k !

所以这两个分布数学形式上是一致的，只是 Poisson 分布是离散的，Gamma 分布是连续的，可以直观的认为 Gamma 分布是 Poisson 分布在正实数集上的连续化版本。

这种数学上的一致性是偶然的吗？从二项分布出发能把 Gamma 分布和 Poisson 分布紧密联系起来。我们在概率统计中都学过 Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限分布。如果你对二项分布关注的足够多，可能会知道二项分布的随机变量 X∼B(n,p) 满足如下一个很奇妙的恒等式

P (X \leq k) = n ! k ! ( n - k - 1 ) ! \int 1 p t k (1 - t) n - k - 1 d t (*) (1)

这个等式反应的是二项分布和 Beta 分布之间的关系，证明并不难，它可以用一个物理模型直观的做概率解释，而不需要使用复杂的数学分析的方法做证明。由于这个解释和 Beta 分布有紧密的联系，所以这个直观的概率解释我们放到下一个章节，讲解 Beta/Dirichlet 分布的时候进行。此处我们暂时先承认(*)这个等式成立。我们在等式右侧做一个变换 t=xn ,得到

P (X \leq k) = n ! k ! ( n - k - 1 ) ! \int 1 p t k (1 - t) n - k - 1 d t = n ! k ! ( n - k - 1 ) ! \int n n p (x n) k (1 - x n) n - k - 1 d x n = ( n - 1 ) ! k ! ( n - k - 1 ) ! \int n n p (x n) k (1 - x n) n - k - 1 d x = \int n n p (n - 1 k) (x n) k (1 - x n) n - k - 1 d x = \int n n p B i n o m i a l (Y = k | n - 1, x n) d x (2)

上式左侧是二项分布

B(n,p) , 而右侧为无穷多个二项分布

B(n−1,xn) 的积分和, 所以可以写为

B i n o m i a l (X \leq k | n, p) = \int n n p B i n o m i a l (Y = k | n - 1, x n) d x (3)

实际上，对上式两边在条件

np=λ,n→∞ 下取极限，则左边有

B(n,p)→Poisson(λ) , 而右边有

B(n−1,xn)→Poisson(x) ,所以得到

P o i s s o n (X \leq k | λ) = \int \infty λ P o i s s o n (Y = k | x) d x (4)

把上式右边的Possion 分布展开，于是得到

P o i s s o n (X \leq k | λ) = \int \infty λ P o i s s o n (Y = k | x) d x = \int \infty λ x k e - x k ! d x

所以对于们得到如下一个重要而有趣的等式

P o i s s o n (X \leq k | λ) = \int \infty λ x k e - x k ! d x (* *) (5)

接下来我们继续玩点好玩的，对上边的等式两边在 λ→0 下取极限，左侧Poisson分布是要至少发生k个事件的概率， λ→0 的时候就不可能有事件发生了，所以 P(X≤k)→1 , 于是我们得到

1 = lim λ \to 0 \int \infty λ x k e - x k ! d x = \int \infty 0 x k e - x k ! d x

在这个积分式子说明

f(x)=xke−xk! 在正实数集上是一个概率分布函数，而这个函数恰好就是Gamma 分布。我们继续把上式右边中的

k! 移到左边，于是得到

k! = \int \infty 0 x k e - x d x

于是我们得到了

k! 表示为积分的方法。

看，我们从二项分布的一个等式出发, 同时利用二项分布的极限是Possion 分布这个性质，基于比较简单的逻辑，推导出了 Gamma 分布，同时把 k! 表达为 Gamma 函数了！实际上以上推导过程是给出了另外一种相对简单的发现 Gamma 函数的途径。

回过头我们看看(**)式,非常有意思，它反应了Possion 分布和 Gamma 分布的关系，这个和(*)式中中反应的二项分布和Beta 分布的关系具有完全相同的结构。把(**)式变形一下得到

P o i s s o n (X \leq k | λ) + \int λ 0 x k e - x k ! d x = 1

我们可以看到，Poisson分布的概率累积函数和Gamma 分布的概率累积函数有互补的关系。

其实(*)和(**)这两个式子都是陈希儒院士的《概率论与数理统计》这本书第二章的课后习题，不过陈老师习题答案中给的证明思路是纯粹数学分析的证明方法，虽然能证明等式成立，但是看完证明后无法明白这两个等式是如何被发现的。上诉的论述过程说明，从二项分布出发，这两个等式都有可以很好的从概率角度进行理解。

3. Beta/Dirichlet分布
魔鬼的游戏—认识Beta 分布

统计学就是猜测上帝的游戏,当然我们不总是有机会猜测上帝，运气不好的时候就得揣度魔鬼的心思。有一天你被魔鬼撒旦抓走了，撒旦说：”我有一个魔盒，上面有一个按钮，你每按一下按钮，就均匀的输出一个[0,1]之间的随机数，我现在按10下，我手上有10个数，你猜第7大的数是什么，偏离不超过0.01就算对。“ 你应该怎么猜呢？

从数学的角度抽象一下，上面这个游戏其实是在说随机变量 X1,X2,⋯,Xn∼iidUniform(0,1) ，把这 n 个随机变量排序后得到顺序统计量 X(1),X(2)，⋯,X(n) , 然后问 X(k) 的分布是什么。

在概率统计学中，均匀分布应该算得上是潘多拉魔盒，几乎所有重要的概率分布都可以从均匀分布 Uniform(0,1) 中生成出来;尤其是在统计模拟中，所有统计分布的随机样本都是通过均匀分布产生的。

对于上面的游戏而言 n=10,k=7 , 如果我们能求出 X(7) 的分布的概率密度，那么用概率密度的极值点去做猜测就是最好的策略。对于一般的情形， X(k) 的分布是什么呢？那我们尝试计算一下 X(k) 落在一个区间 [x,x+Δx] 的概率，也就是求如下概率值

P (x \leq X (k) \leq x + Δ x) = ?

把 [0,1] 区间分成三段 [0,x),[x,x+Δx],(x+Δx,1] ,我们先考虑简单的情形，假设 n 个数中只有一个落在了区间 [x,x+Δx] 内，则因为这个区间内的数 X(k) 是第 k 大的，则 [0,x) 中应该有 k−1 个数， (x,1] 这个区间中应该有 n−k 个数。不失一般性，我们先考虑如下一个符合上述要求的事件 E

E = {X 1 \in [x, x + Δ x], X i \in [0, x) (i = 2, \dots, k), X j \in (x + Δ x, 1] (j = k + 1, \dots, n)}

事件 E

则有

P (E) = \prod i = 1 n P (X i) = x k - 1 (1 - x - Δ x) n - k Δ x = x k - 1 (1 - x) n - k Δ x + o (Δ x)

o(Δx) 表示 Δx 的高阶无穷小。显然，由于不同的排列组合，即 n 个数中有一个落在 [x,x+Δx] 区间的有 n 种取法，余下 n−1 个数中有 k−1 个落在 [0,x) 的有 (n−1k−1) 种组合，所以和事件 E 等价的事件一共有 n(n−1k−1) 个。继续考虑稍微复杂一点情形，假设 n 个数中有两个数落在了区间 [x,x+Δx] ，

E' = {X 1, X 2 \in [x, x + Δ x], X i \in [0, x) (i = 3, \dots, k), X j \in (x + Δ x, 1] (j = k + 1, \dots, n)}

事件E’

则有

P (E') = x k - 2 (1 - x - Δ x) n - k (Δ x) 2 = o (Δ x)

从以上分析我们很容易看出， 只要落在 [x,x+Δx] 内的数字超过一个，则对应的事件的概率就是 o(Δx) 。于是

P (x \leq X (k) \leq x + Δ x) = n (n - 1 k - 1) P (E) + o (Δ x) = n (n - 1 k - 1) x k - 1 (1 - x) n - k Δ x + o (Δ x)

所以，可以得到

X(k) 的概率密度函数为

f (x) = lim Δ x \to 0 P ( x \leq X ( k ) \leq x + Δ x ) Δ x = n (n - 1 k - 1) x k - 1 (1 - x) n - k = n ! ( k - 1 ) ! ( n - k ) ! x k - 1 (1 - x) n - k x \in [0, 1]

利用Gamma 函数，我们可以把

f(x) 表达为

f (x) = Γ ( n + 1 ) Γ ( k ) Γ ( n - k + 1 ) x k - 1 (1 - x) n - k

还记得神奇的 Gamma 函数可以把很多数学概念从整数集合延拓到实数集合吧。我们在上式中取 α=k,β=n−k+1 , 于是我们得到

f (x) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α - 1 (1 - x) β - 1 (1)

这个就是 一般意义上的 Beta 分布！可以证明，在

α,β 取非负实数的时候，这个概率密度函数也都是良定义的。

回到魔鬼的游戏，这 n=10,k=7 这个具体的实例中，我们按照如下密度分布的峰值去猜测才是最有把握的。

f (x) = 10 ! ( 6 ) ! ( 3 ) ! x 6 (1 - x) 3 x \in [0, 1]

Beta-Binomial 共轭

然而即便如此，我们能做到一次猜中的概率也不高，很不幸，你第一次没有猜中，魔鬼说：“我再仁慈一点，再给你一个机会，你按5下这个机器，你就得到了5个[0,1]之间的随机数，然后我可以告诉你这5个数中的每一个，和我的第7大的数相比，谁大谁小，然后你继续猜我手头的第7大的数是多少。”这时候我们应该怎么猜测呢？

魔鬼的第二个题目，数学上形式化一下，就是

X1,X2,⋯,Xn∼iidUniform(0,1) ，对应的顺序统计量是 X(1),X(2)，⋯,X(n) , 我们要猜测 p=X(k) ；
Y1,Y2,⋯,Ym∼iidUniform(0,1) , Yi 中有 m1 个比 p 小， m2 个比 p 大；
问 P(p|Y1,Y2,⋯,Ym) 的分布是什么。

由于 p=X(k) 在 X1,X2,⋯,Xn 中是第 k 大的，利用 Yi 的信息，我们容易推理得到 p=X(k) 在 X1,X2,⋯,Xn,Y1,Y2,⋯,Ym∼iidUniform(0,1) 这 (m+n) 个独立随机变量中是第 k+m1 大的，于是按照上一个小节的推理，此时 p=X(k) 的概率密度函数是 Beta(p|k+m1,n−k+1+m2) 。按照贝叶斯推理的逻辑，我们把以上过程整理如下：

p=X(k) 是我们要猜测的参数，我们推导出 p 的分布为 f(p)=Beta(p|k,n−k+1) ,称为 p 的先验分布；
数据 Yi 中有 m1 个比 p 小， m2 个比 p 大， Yi 相当于是做了 m 次贝努利实验，所以 m1 服从二项分布 B(m,p) ；
在给定了来自数据提供的 (m1,m2) 的知识后， p 的后验分布变为 f(p|m1,m2)=Beta(p|k+m1,n−k+1+m2)

我们知道贝叶斯参数估计的基本过程是

先验分布 + 数据的知识 = 后验分布

以上贝叶斯分析过程的简单直观的表述就是

B e t a (p | k, n - k + 1) + C o u n t (m 1, m 2) = B e t a (p | k + m 1, n - k + 1 + m 2)

其中 (m1,m2) 对应的是二项分布 B(m1+m2,p) 的计数。更一般的，对于非负实数

α,β ，我们有如下关系

B e t a (p | α, β) + C o u n t (m 1, m 2) = B e t a (p | α + m 1, β + m 2) (1)

这个式子实际上描述的就是 Beta-Binomial 共轭，此处共轭的意思就是，数据符合二项分布的时候，参数的先验分布和后验分布都能保持Beta 分布的形式，这种 形式不变的好处是，我们能够在先验分布中赋予参数很明确的物理意义，这个物理意义可以延续到后验分布中进行解释，同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。

而我们从以上过程可以看到，Beta 分布中的参数 α,β 都可以理解为物理计数，这两个参数经常被称为伪计数(pseudo-count)。

基于以上逻辑，我们也可以把 Beta(p|α,β) 写成下式来理解
Beta(p|1,1)+Count(α−1,β−1)=Beta(p|α,β) (∗∗∗) 其中 Beta(p|1,1) 恰好就是均匀分布Uniform(0,1)。

对于(***) 式，我们其实也可以纯粹从贝叶斯的角度来进行推导和理解。假设有一个不均匀的硬币抛出正面的概率为 p ,抛 m 次后出现正面和反面的次数分别是 m1,m2 ，那么按传统的频率学派观点， p 的估计值应该为 pˆ=m1m 。而从贝叶斯学派的观点来看，开始对硬币不均匀性一无所知，所以应该假设 p∼Uniform(0,1) , 于是有了二项分布的计数 (m1,m2)
之后，按照贝叶斯公式如下计算 p 的后验分布

P (p | m 1, m 2) = P ( p ) \cdot P ( m 1 , m 2 | p ) P ( m 1 , m 2 ) = 1 \cdot P ( m 1 , m 2 | p ) \int 1 0 P ( m 1 , m 2 | t ) d t = ( m m 1 ) p m 1 ( 1 - p ) m 2 \int 1 0 ( m m 1 ) t m 1 ( 1 - t ) m 2 d t = p m 1 ( 1 - p ) m 2 \int 1 0 t m 1 ( 1 - t ) m 2 d t

计算得到的后验分布正好是

Beta(p|m1+1,m2+1) 。

百变星君Beta分布

{Beta(1, 1)就是均匀分布}

Beta 分布的概率密度我们把它画成图，会发现它是个百变星君，它可以是凹的、凸的、单调上升的、单调下降的；可以是曲线也可以是直线，而均匀分布也是特殊的Beta分布。由于Beta 分布能够拟合如此之多的形状，因此它在统计数据拟合中被广泛使用。

在上一个小节中，我们从二项分布推导Gamma 分布的时候，使用了如下的等式

P (C \leq k) = n ! k ! ( n - k - 1 ) ! \int 1 p t k (1 - t) n - k - 1 d t, C \sim B (n, p) (2)

现在大家可以看到，左边是二项分布的概率累积，右边实际上是

Beta(t|k+1,n−k) 分布的概率积分。这个式子在上一小节中并没有给出证明，下面我们利用和魔鬼的游戏类似的概率物理过程进行证明。

我们可以如下构造二项分布，取随机变量 X1,X2,⋯,Xn∼iidUniform(0,1) ,一个成功的贝努利实验就是 Xi<p ,否则表示失败,于是成功的概率为 p 。 C 用于计数成功的次数，于是 C∼B(n,p) 。

贝努利实验最多成功 k 次

显然我们有如下式子成立

P (C \leq k) = P (X (k + 1) > p)

此处 X(k+1) 是顺序统计量，为第 k+1 大的数。等式左边表示贝努利实验成功次数最多 k 次，右边表示第 k+1 大的数必然对应于失败的贝努利实验，从而失败次数最少是 n−k 次，所以左右两边是等价的。由于 X(k+1)∼Beta(t|k+1,n−k) , 于是

P (C \leq k) = P (X (k + 1) > p) = \int 1 p B e t a (t | k + 1, n - k) d t = n ! k ! ( n - k - 1 ) ! \int 1 p t k (1 - t) n - k - 1 d t

最后我们再回到魔鬼的游戏，如果你按出的5个随机数字中，魔鬼告诉你有2个小于它手中第7大的数，那么你应该
按照如下概率分布的峰值做猜测是最好的

B e t a (x | 9, 7) = 15 ! ( 8 ) ! ( 6 ) ! x 8 (1 - x) 6 x \in [0, 1]

Dirichlet分布

很幸运的，你这次猜中了，魔鬼开始甩赖了：这个游戏对你来说太简单了，我要加大点难度，我们重新来一次，我按魔盒20下生成20个随机数，你同时给我猜第7大和第13大的数是什么，这时候应该如何猜测呢？

数学形式化如下：

X1,X2,⋯,Xn∼iidUniform(0,1) ，
排序后对应的顺序统计量 X(1),X(2)，⋯,X(n) ,
问 (X(k1),X(k1+k2)) 的联合分布是什么；

完全类似于第一个游戏的推导过程，我们可以进行如下的概率计算(为了数学公式的简洁对称，我们取 x3 满足 x1+x2+x3=1 ,但只有 x1,x2 是变量)

(X(k1),X(k1+k2)) 的联合分布推导

P (X (k 1) \in (x 1, x 1 + Δ x), X (k 1 + k 2) \in (x 2, x 2 + Δ x)) = n (n - 1) (n - 2 k 1 - 1 , k 2 - 1) x k 1 - 1 1 x k 2 - 1 2 x n - k 1 - k 2 3 (Δ x) 2 = n ! ( k 1 - 1 ) ! ( k 2 - 1 ) ! ( n - k 1 - k 2 ) ! x k 1 - 1 1 x k 2 - 1 2 x n - k 1 - k 2 3 (Δ x) 2

于是我们得到

(X(k1),X(k1+k2)) 的联合分布是

f (x 1, x 2, x 3) = n ! ( k 1 - 1 ) ! ( k 2 - 1 ) ! ( n - k 1 - k 2 ) ! x k 1 - 1 1 x k 2 - 1 2 x n - k 1 - k 2 3 = Γ ( n + 1 ) Γ ( k 1 ) Γ ( k 2 ) Γ ( n - k 1 - k 2 + 1 ) x k 1 - 1 1 x k 2 - 1 2 x n - k 1 - k 2 3

这个分布其实就是 3维形式的 Dirichlet 分布

Dir(x1,x2,x3|k1,k2,n−k1−k2+1) 。令 α1=k1,α2=k2,α3=n−k1−k2+1 ,于是分布密度可以写为

f (x 1, x 2, x 3) = Γ ( α 1 + α 2 + α 3 ) Γ ( α 1 ) Γ ( α 2 ) Γ ( α 3 ) x α 1 - 1 1 x α 2 - 1 2 x α 3 - 1 3 (1)

即便 α→=(α1,α2,α3) 延拓到非负实数集合，以上概率分布也是良定义的。

从形式上我们也能看出，Dirichlet 分布是Beta 分布在高维度上的推广，他和Beta 分布一样也是一个百变星君，密度函数可以展现出多种形态。

不同 α 下的Dirichlet 分布

{ {αk} = 1时相当于高维均匀分布 -}

Dirichlet-Multinomial 共轭

类似于魔鬼的游戏2，我们也可以调整一下游戏3，从魔盒中生成 m 个随机数 Y1,Y2,⋯,Ym∼iidUniform(0,1) 并让魔鬼告诉我们 Yi 和 (X(k1),X(k1+k2)) 相比谁大谁小。于是有如下游戏4

X1,X2,⋯,Xn∼iidUniform(0,1) ，排序后对应的顺序统计量 X(1),X(2)，⋯,X(n)
令 p1=X(k1),p2=X(k1+k2),p3=1−p1−p2 (加上 p3 是为了数学表达简洁对称),我们要猜测 p→=(p1,p2,p3) ；
Y1,Y2,⋯,Ym∼iidUniform(0,1) , Yi 中落到 [0,p1),[p1,p2),[p2,1] 三个区间的个数分别为 m1,m2,m3 ， m=m1+m2+m3 ；
问后验分布 P(p→|Y1,Y2,⋯,Ym) 的分布是什么。

为了方便，我们记

m \to = (m 1, m 2, m 3), k \to = (k 1, k 2, n - k 1 - k 2 + 1)

由游戏中的信息，我们可以推理得到

p1,p2 在

X1,X2,⋯,Xn,

Y1,Y2,⋯,Ym

∼iidUniform(0,1) 这

m+n 个数中分别成为了第

k1+m1,k2+m2 大的数，于是后验分布

P(p→|Y1,Y2,⋯,Ym) 应该是

Dir(p→|k1+m1,k1+m2,n−k1−k2+1+m3) ,即

Dir(p→|k→+m→) 。按照贝叶斯推理的逻辑，我们同样可以把以上过程整理如下：

我们要猜测参数 p→=(p1,p2,p3) ，其先验分布为 Dir(p→|k→) ；
数据 Yi 落到 [0,p1),[p1,p2),[p2,1] 三个区间的个数分别为 m1,m2,m3 ，所以 m→=(m1,m2,m3) 服从多项分布 Mult(m→|p→)
在给定了来自数据提供的知识 m→ 后， p→ 的后验分布变为 Dir(p→|k→+m→)

以上贝叶斯分析过程的简单直观的表述就是

D i r (p \to | k \to) + M u l t C o u n t (m \to) = D i r (p \to | k \to + m \to)

令

α→=k→<

Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
pytorch-数学运算码啥码深度学习之pytorch pytorch 深度学习 python
四则运算加减乘除add+sub-mul*div/a=torch.rand(3,4)b=torch.rand(4)a,b'''(tensor([[0.2384,0.5022,0.7100,0.0400],[0.1716,0.0894,0.0795,0.1456],[0.7635,0.9423,0.7649,0.3379]]),tensor([0.8526,0.8296,0.1845,0.7922])
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
前端开发者必看：Node.js实战技巧大揭秘大厂前端小白菜前端开发实战 node.js vim 编辑器 ai
前端开发者必看：Node.js实战技巧大揭秘关键词：前端开发者、Node.js、实战技巧、模块化开发、性能优化、Express框架、Webpack摘要：本文专为前端开发者打造，旨在深入揭秘Node.js的实战技巧。首先介绍了Node.js的背景和对前端开发的重要性，接着详细阐述了Node.js的核心概念与联系、核心算法原理及具体操作步骤，通过数学模型和公式进一步加深理解。然后结合实际案例，从开发环
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
《高等数学》（同济大学·第7版）第七章微分方程第四节一阶线性微分方程没有女朋友的程序员高等数学
好的，这是将您提供的高等数学教案内容中的LaTeX公式转换为纯文本格式后的版本：同学们好！今天我们学习《高等数学》第七章第四节“一阶线性微分方程”。这是一阶微分方程中最重要、应用最广泛的一类方程，掌握它的解法对后续学习（如微分方程的应用、高阶线性微分方程）至关重要。我会用最通俗的语言，结合大量例子，帮你彻底掌握“一阶线性微分方程”的定义、解法和核心思想。一、一阶线性微分方程的定义：长什么样？1.标
蔡高厅老师 - 高等数学-阅读笔记 - 01 - 前言、函数【视频第01、02、03、】 Franklin 数学线性代数
高等数学前言；196学时，每周6课主要内容：上册一元、多元函数数，微分学、积分学、矢量代数、空间解析几何无穷级数、微分方程，多元函数微分学和积分学目的：高等数学3基：1高等数学的基本知识2高度数学的基本理论3高等数学的基本计算方法提高数学素养培养：抽象思维、逻辑推理、辩证的思想方法、空间想象能力、分析问题、解决问题的能力为进一步学习打下必要的学习基础和初等数学不同，研究的不是常量而是变量，变量和变
《高等数学》（同济大学·第7版）第九章多元函数微分法及其应用第四节隐函数的求导公式没有女朋友的程序员高等数学
以下是将含LaTeX标记的内容转为纯文本的版本：同学们好！今天我们学习《高等数学》（同济·第7版）第九章第四节隐函数的求导公式。我会用最通俗的语言和具体例子，带你彻底理解这个核心概念。如果中途有疑问，随时提出，我们一步步解决！一、隐函数是什么？为什么需要它？1.显函数vs隐函数显函数：直接写出因变量和自变量的关系，例如：y=f(x)或z=f(x,y)隐函数：因变量和自变量的关系隐含在一个方程中，例
高等数学》（同济大学·第7版）第七章微分方程第五节可降阶的高阶微分方程没有女朋友的程序员高等数学
好的，这是将您提供的高等数学第七章第五节教案内容中的LaTeX公式转换为纯文本格式后的版本：同学们好！今天我们学习《高等数学》第七章第五节“可降阶的高阶微分方程”。高阶微分方程（如二阶、三阶）直接求解困难，但许多方程可以通过“降阶”转化为低阶方程（如一阶方程）来求解。本节重点讲解三类可降阶的高阶微分方程，掌握它们的解法对后续学习至关重要。我会用最通俗的语言，结合大量例子，帮你彻底掌握。一、可降阶高
《高等数学》（同济大学·第7版）第九章多元函数微分法及其应用第三节多元复合函数的求导法则没有女朋友的程序员高等数学
以下是将含LaTeX标记的内容转为纯文本的版本：同学们好！今天我们学习《高等数学》（同济·第7版）第九章第三节多元复合函数求导法则。我会用“买菜路线”和“温度变化”两个生活例子，带你彻底理解这个核心概念。如果中途有疑问，随时提出，我们一步步解决！一、从买菜路线说起：为什么需要链式法则？场景：小明从家出发，先骑车到菜市场（路程x公里），再步行到超市（路程y公里）。已知：骑车速度v_x=20km/h，
高等数学》（同济大学·第7版）第七章微分方程第三节齐次方程没有女朋友的程序员高等数学
同学们好！今天我们学习《高等数学》第七章第三节“齐次方程”。这是微分方程中一类重要的可转化方程，掌握它的解法对后续学习（如线性微分方程）有重要意义。我会用最通俗的语言，结合大量例子，帮你彻底掌握“齐次方程”的定义、特点和解法。一、齐次方程的定义：什么是“齐次”？1.齐次方程的两种含义在微积分中，“齐次”有两种常见含义，但这里我们特指一阶微分方程中的齐次方程：若一阶微分方程可以写成以下形式：dydx
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
创意Python爱心代码卖血买老婆 Python专栏 python 开发语言
目录一、用字符在控制台打印爱心图案1.1方法1：简单星号爱心说明1.2方法2：调整字符和形状二、turtle绘制爱心2.1turtle画心形及写字说明2.2动态跳动爱心三、用Matplotlib画心形曲线3.1标准心形曲线3.2LOVE动画心形（进阶）四、参数方程自定义爱心（数学美）心形参数方程公式五、更多创意：二维码嵌入、爱心表白墙六、总结完整参考目录用Python创意绘制爱心（Heart）的多
创意Python爱心代码分享的技术文章大纲 hshaohao pygame python java php c++c语言 javascript
创意Python爱心代码分享的技术文章大纲引言介绍Python在创意编程中的应用，特别是图形和数学可视化方面的潜力。提及爱心代码作为经典示例，激发读者兴趣。基本爱心图案生成使用数学公式和简单图形库绘制基本爱心形状。示例代码利用matplotlib或turtle库实现。importnumpyasnpimportmatplotlib.pyplotaspltt=np.linspace(0,2*np.pi
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
认识Jacobian 一碗姜汤统计学习线性代数矩阵
Jacobian（雅可比矩阵）是数学中用于描述多元函数在某一点处导数的重要概念，广泛应用于微积分、微分几何、数值分析等领域。以下从定义、数学表达、几何意义、应用场景等方面详细解析：一、定义与数学表达1.基本定义若有一个从欧式空间Rn\mathbb{R}^nRn到Rm\mathbb{R}^mRm的多元函数：f:Rn→Rmf:\mathbb{R}^n\to\mathbb{R}^mf:Rn→Rm，其分量
揭秘AI算力网络与通信中边缘计算的机器学习应用
揭秘AI算力网络与通信中边缘计算的机器学习应用关键词：AI算力网络、通信、边缘计算、机器学习、应用摘要：本文将深入探讨AI算力网络与通信中边缘计算的机器学习应用。我们会先介绍相关背景知识，接着解释核心概念，分析它们之间的关系，阐述核心算法原理和操作步骤，结合数学模型举例说明，通过项目实战展示代码实现与解读，探讨实际应用场景，推荐相关工具和资源，最后展望未来发展趋势与挑战。希望通过这篇文章，能让大家
通信感知如何优化AI算力网络的移动性管理？ AI算力网络与通信人工智能网络 php ai
通信感知如何优化AI算力网络的移动性管理？关键词：通信感知、AI算力网络、移动性管理、优化策略、技术融合摘要：本文围绕通信感知如何优化AI算力网络的移动性管理展开探讨。首先介绍了通信感知、AI算力网络和移动性管理的基本概念，接着深入分析了它们之间的关系以及通信感知在优化移动性管理中的作用原理。通过数学模型和具体代码案例，详细阐述了相关算法和实现步骤。同时，结合实际应用场景，探讨了这种优化方式的实际
解析AI算力网络与通信领域强化学习的算法 AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构人工智能网络算法 ai
解析AI算力网络与通信领域强化学习的算法：从"快递员找路"到"智能网络大脑"关键词：AI算力网络、通信领域、强化学习、马尔可夫决策、资源调度摘要：本文将用"快递物流系统"的类比，带您理解AI算力网络与通信领域如何通过强化学习实现智能决策。我们会从核心概念讲起，逐步拆解强化学习在网络资源调度中的算法原理，结合Python代码实战，最后探索其在5G/6G、边缘计算等场景的应用。即使您没学过复杂数学，也
分布式AI算力网络：架构设计与实现原理 AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构分布式人工智能网络 ai
分布式AI算力网络：架构设计与实现原理关键词：分布式AI算力网络、架构设计、实现原理、AI计算、网络协同摘要：本文深入探讨了分布式AI算力网络的架构设计与实现原理。首先介绍了其背景知识，接着以通俗易懂的方式解释了核心概念及它们之间的关系，阐述了核心算法原理与操作步骤，包含数学模型和公式，通过项目实战展示代码实现，分析了实际应用场景，推荐了相关工具和资源，探讨了未来发展趋势与挑战。旨在帮助读者全面理
Python实现图像处理的快速傅里叶变换（FFT）或离散余弦变换（DCT）闲人编程图像处理图像处理 python 计算机视觉 FFT DCT 傅里叶离散余弦变换
目录Python实现图像处理的快速傅里叶变换（FFT）或离散余弦变换（DCT）一、引言1.1图像处理简介1.2快速傅里叶变换与离散余弦变换简介1.3本文目标与结构二、理论背景与数学原理2.1快速傅里叶变换（FFT）介绍2.2离散余弦变换（DCT）介绍2.3两者的应用领域与区别三、算法实现3.1快速傅里叶变换（FFT）实现3.1.1使用Python实现FFT3.1.2图像的频域处理3.2离散余弦变换
各种极难数学概念的介绍程序鸠 #天才少年学习合集数学
（图片摘自B站视频【毕导】这个视频里说的都是真的，但你却永远无法证明）1.李代数（LieAlgebras）定义与运算规则：李代数是一类非结合代数，其元素间的运算满足交替性（即[x,x]=0对所有元素x成立）和雅可比恒等式（即[x,[y,z]]+[y,[z,x]]+[z,[x,y]]=0）。这里的运算[⋅,⋅]称为李括号，它度量了元素间的“非交换性”。与李群的关系：李代数与李群紧密相关，李群是具有光
3秒搞定DeepSeek数学公式转Word！学生党救星（附代码实测） Uyker python 编辑器
适用场景：论文交稿deadline/报告美化/作业急救工具白嫖指南：免费+免安装方案优先一、终极方案：Mathpix截图转公式（强推！）效果：复杂矩阵→完美还原步骤：复制DeepSeek输出的LaTeX代码（例）\vec{F}=q(\vec{E}+\vec{v}\times\vec{B})打开Mathpix官网→按Ctrl+Alt+M截取公式右键粘贴到Word→自动变身标准公式！✅优势：识别准确率
线性代数和c语言先学哪个,线性代数和哪个更有用？段丞博线性代数和c语言先学哪个
一、从数学与应用数学这个专业来分析下“线性代数”和“高等数学”这两块的内容，无论哪块知识在“考研究生数学科目中的考试”都会涉汲到的，而且有些专业的考试也包括概率论与数理统计这块知识。线性代数和哪个更有用?1、线性代数内容：行列式、矩阵、向量、线性方程组、特征值和特征向量、二次型。2、高等数学内容：函数·极限·连续、导数与微分、不定积分、定积分及广义积分、中值定理的证明、常微分方程、一元微积分的应用
代数几何：自然曲线的数学研究 AI天才研究院 ChatGPT 计算 AI人工智能与大数据 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
代数几何：自然曲线的数学研究关键词：代数几何、自然曲线、数学研究、算法、应用摘要：本文深入探讨了代数几何在自然曲线研究中的应用，从基础概念到复杂算法，再到实际项目实战，全面揭示了代数几何在数学研究中的核心地位和深远影响。本文旨在为读者提供一份系统、完整、易于理解的技术指南，帮助深入理解自然曲线的数学本质及其在计算机科学中的广泛应用。目录大纲设计思路为了设计出《代数几何：自然曲线的数学研究》这本书的
数学：线性相关和线性无关的关系千码君2016 数学线性代数系数唯一性定义法矩阵秩法行列式法高维空间的基线性方程组
在线性代数中，线性无关是描述向量组性质的重要概念，它反映了向量组中向量之间是否存在“冗余”或“依赖”关系。以下从定义、判断方法、几何意义及应用等方面详细说明：一、线性无关的定义才成立，则称该向量组线性无关。反之，若存在不全为0的系数使等式成立，则称向量组线性相关。二、核心理解：线性无关的本质三、线性无关的判断方法1.定义法（直接验证）2.矩阵秩法
4、理解线性代数的核心概念与应用 rice5 线性代数第五版深度解析线性代数向量空间子空间
理解线性代数的核心概念与应用1引言线性代数是现代数学的重要分支之一，广泛应用于科学、工程、计算机科学等领域。理解线性代数的基本概念和原理不仅有助于学术研究，还能够提升解决实际问题的能力。本文将深入探讨线性代数中的核心概念，帮助读者建立坚实的理论基础，并掌握实际应用技巧。2向量空间向量空间是线性代数的基础概念之一。一个向量空间(V)是指一个集合，其元素称为向量，并且这些向量之间可以进行加法运算和标量
大数据领域数据工程的消息中间件选型大数据洞察大数据与AI人工智能大数据 ai
大数据领域数据工程的消息中间件选型关键词：消息中间件、数据工程、大数据处理、选型标准、分布式系统、实时数据流、可靠性保障摘要：在大数据领域的数据工程实践中，消息中间件是构建高可靠、高可扩展数据管道的核心组件。本文从技术架构、功能需求、应用场景等维度，系统解析消息中间件选型的关键要素。通过对比Kafka、Pulsar、RabbitMQ、RocketMQ等主流中间件的技术特性，结合数学模型分析吞吐量、
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

TopicModel主题模型LDA中的数学模型

1.gamma函数

你可能感兴趣的:(数学,主题模型,LDA,PLSA)