SmallCSer

【未读】概率语言模型及其变形系列(1)-PLSA及EM算法

原文地址：http://blog.csdn.net/yangliuy/article/details/8330640

本系列博文介绍常见概率语言模型及其变形模型，主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下

第一篇：PLSA及EM算法

第二篇：LDA及Gibbs Samping

第三篇：LDA变形模型-Twitter LDA，TimeUserLDA，ATM，Labeled-LDA，MaxEnt-LDA等

第四篇：基于变形LDA的paper分类总结

第五篇：LDA Gibbs Sampling的JAVA实现

第一篇 PLSA及EM算法

[本文PDF版本下载地址 PLSA及EM算法-yangliuy]

前言：本文主要介绍PLSA及EM算法，首先给出LSA（隐性语义分析）的早期方法SVD，然后引入基于概率的PLSA模型，其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数，最后总结EM算法的一般形式及运用关键点。对于改进PLSA，引入hyperparameter的LDA模型及其Gibbs Sampling参数估计方法放在本系列后面的文章LDA及Gibbs Samping介绍。

1 LSA and SVD

LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。我们知道，在文档的空间向量模型（VSM）中，文档被表示成由特征词出现概率组成的多维向量，这种方法的好处是可以将query和文档转化成同一空间下的向量计算相似度，可以对不同词项赋予不同的权重，在文本检索、分类、聚类问题中都得到了广泛应用，在基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现和基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现系列文章中的分类聚类算法大多都是采用向量空间模型。然而，向量空间模型没有能力处理一词多义和一义多词问题，例如同义词也分别被表示成独立的一维，计算向量的余弦相似度时会低估用户期望的相似度；而某个词项有多个词义时，始终对应同一维度，因此计算的结果会高估用户期望的相似度。

LSA方法的引入就可以减轻类似的问题。基于SVD分解，我们可以构造一个原始向量矩阵的一个低秩逼近矩阵，具体的做法是将词项文档矩阵做SVD分解

$C = U \Sigma V^T$

其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值。然后把 $\Sigma$ 的r个对角元素的前k个保留（最大的k个保留）, 后面最小的r-k个奇异值置0, 得到 $\Sigma_k$ ；最后计算一个近似的分解矩阵

$C_k = U\Sigma_k V^T$

则在最小二乘意义下是的最佳逼近。由于 $\Sigma_k$ 最多包含k个非零元素，所以的秩不超过k。通过在SVD分解近似，我们将原始的向量转化成一个低维隐含语义空间中，起到了特征降维的作用。每个奇异值对应的是每个“语义”维度的权重，将不太重要的权重置为0，只保留最重要的维度信息，去掉一些信息“nosie”,因而可以得到文档的一种更优表示形式。将SVD分解降维应用到文档聚类的JAVA实现可参见此文。

IIR中给出的一个SVD降维的实例如下：

左边是原始矩阵的SVD分解，右边是只保留权重最大2维，将原始矩阵降到2维后的情况。

2 PLSA

尽管基于SVD的LSA取得了一定的成功，但是其缺乏严谨的数理统计基础，而且SVD分解非常耗时。Hofmann在SIGIR'99上提出了基于概率统计的PLSA模型，并且用EM算法学习模型参数。PLSA的概率图模型如下

其中D代表文档，Z代表隐含类别或者主题，W为观察到的单词，表示单词出现在文档的概率，表示文档中出现主题下的单词的概率，给定主题出现单词的概率。并且每个主题在所有词项上服从Multinomial 分布，每个文档在所有主题上服从Multinomial 分布。整个文档的生成过程是这样的：

(1) 以的概率选中文档；

(2) 以的概率选中主题；

(3) 以的概率产生一个单词。

我们可以观察到的数据就是对，而是隐含变量。的联合分布为

而和分布对应了两组Multinomial 分布，我们需要估计这两组分布的参数。下面给出用EM算法估计PLSA参数的详细推导过程。

3 Estimate parameters in PLSA by EM

（注：本部分主要参考Tomas Hoffman, Unsupervised Learning by Probabilistic Latent Semantic Analysis.）

如文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计一文所述，常用的参数估计方法有MLE、MAP、贝叶斯估计等等。但是在PLSA中，如果我们试图直接用MLE来估计参数，就会得到似然函数

其中是term 出现在文档中的次数。注意这是一个关于和的函数，一共有N*K + M*K个自变量(注意这里M表示term的总数，一般文献习惯用V表示)，如果直接对这些自变量求偏导数，我们会发现由于自变量包含在对数和中，这个方程的求解很困难。因此对于这样的包含“隐含变量”或者“缺失数据”的概率模型参数估计问题，我们采用EM算法。

EM算法的步骤是：

(1)E步骤：求隐含变量Given当前估计的参数条件下的后验概率。

(2)M步骤：最大化Complete data对数似然函数的期望，此时我们使用E步骤里计算的隐含变量的后验概率，得到新的参数值。

两步迭代进行直到收敛。

先解释一下什么是Incomplete data和complete data。Zhai老师在一篇经典的EM算法Notes中讲到，当原始数据的似然函数很复杂时，我们通过增加一些隐含变量来增强我们的数据，得到“complete data”,而“complete data”的似然函数更加简单，方便求极大值。于是，原始的数据就成了“incomplete data”。我们将会看到，我们可以通过最大化“complete data”似然函数的期望来最大化"incomplete data"的似然函数，以便得到求似然函数最大值更为简单的计算途径。

针对我们PLSA参数估计问题，在E步骤中，直接使用贝叶斯公式计算隐含变量在当前参数取值条件下的后验概率，有

在这个步骤中，我们假定所有的和都是已知的，因为初始时随机赋值，后面迭代的过程中取前一轮M步骤中得到的参数值。

在M步骤中，我们最大化Complete data对数似然函数的期望。在PLSA中，Incomplete data 是观察到的，隐含变量是主题，那么complete data就是三元组，其期望是

注意这里是已知的，取的是前面E步骤里面的估计值。下面我们来最大化期望，这又是一个多元函数求极值的问题，可以用拉格朗日乘数法。拉格朗日乘数法可以把条件极值问题转化为无条件极值问题，在PLSA中目标函数就是,约束条件是

$\begin{aligned} &\Sigma_{j=1}^Mp(w_j|z_k) = 1\\ &\Sigma_{k=1}^Kp(z_k|d_i) = 1 \end{aligned}$

由此我们可以写出拉格朗日函数

这是一个关于和的函数，分别对其求偏导数，我们可以得到

注意这里进行过方程两边同时乘以和的变形，联立上面4组方程，我们就可以解出M步骤中通过最大化期望估计出的新的参数值

解方程组的关键在于先求出 $\tau_k,\rho_i$ ,其实只需要做一个加和运算就可以把 $\tau_k,\rho_i$ 的系数都化成1，后面就好计算了。

然后使用更新后的参数值，我们又进入E步骤，计算隐含变量 Given当前估计的参数条件下的后验概率。如此不断迭代，直到满足终止条件。

注意到我们在M步骤中还是使用对Complete Data的MLE，那么如果我们想加入一些先验知识进入我们的模型，我们可以在M步骤中使用MAP估计。正如文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计中投硬币的二项分布实验中我们加入“硬币一般是两面均匀的”这个先验一样。而由此计算出的参数的估计值会在分子分母中多出关于先验参数的preduo counts,其他步骤都是一样的。具体可以参考Mei Qiaozhu 的Notes。

PLSA的实现也不难，网上有很多实现code。

例如这个PLSA的EM算法实现 http://ezcodesample.com/plsaidiots/PLSAjava.txt

主要的类如下(作者Andrew Polar)

[java]  view plain copy 
      
     
 //The code is taken from:  
 //http://code.google.com/p/mltool4j/source/browse/trunk/src/edu/thu/mltool4j/topicmodel/plsa  
 //I noticed some difference with original Hofmann concept in computation of P(z). It is   
 //always even and actually not involved, that makes this algorithm non-negative matrix   
 //factoring and not PLSA.  
 //Found and tested by Andrew Polar.   
 //My version can be found on semanticsearchart.com or ezcodesample.com  

[java]  view plain copy 
      
     
 class ProbabilisticLSA  
 {  
     private Dataset dataset = null;  
     private Posting[][] invertedIndex = null;  
     private int M = -1; // number of data  
     private int V = -1; // number of words  
     private int K = -1; // number of topics  
   
     public ProbabilisticLSA()  
     {  
     }  
   
     public boolean doPLSA(String datafileName, int ntopics, int iters)  
     {  
         File datafile = new File(datafileName);  
         if (datafile.exists())  
         {  
             if ((this.dataset = new Dataset(datafile)) == null)  
             {  
                 System.out.println("doPLSA, dataset == null");  
                 return false;  
             }  
             this.M = this.dataset.size();  
             this.V = this.dataset.getFeatureNum();  
             this.K = ntopics;  
               
              //build inverted index  
             this.buildInvertedIndex(this.dataset);  
             //run EM algorithm  
             this.EM(iters);  
             return true;  
               
         }  
         else  
         {  
             System.out.println("ProbabilisticLSA(String datafileName), datafile: " + datafileName + " doesn't exist");  
             return false;  
         }  
     }  
   
     //Build the inverted index for M-step fast calculation. Format:  
     //invertedIndex[w][]: a unsorted list of document and position which word w  
     // occurs.   
     //@param ds the dataset which to be analysis  
     @SuppressWarnings("unchecked")  
     private boolean buildInvertedIndex(Dataset ds)  
     {  
         ArrayList[] list = new ArrayList[this.V];  
         for (int k=0; k<this.V; ++k) {  
             list[k] = new ArrayList();  
         }  
               
         for (int m = 0; m < this.M; m++)  
         {  
             Data d = ds.getDataAt(m);  
             for (int position = 0; position < d.size(); position++)  
             {  
                 int w = d.getFeatureAt(position).dim;  
                 // add posting  
                 list[w].add(new Posting(m, position));  
             }  
         }  
         // convert to array  
         this.invertedIndex = new Posting[this.V][];  
         for (int w = 0; w < this.V; w++)  
         {  
             this.invertedIndex[w] = list[w].toArray(new Posting[0]);  
         }  
         return true;  
     }  
   
     private boolean EM(int iters)  
     {  
         // p(z), size: K  
         double[] Pz = new double[this.K];  
   
         // p(d|z), size: K x M  
         double[][] Pd_z = new double[this.K][this.M];  
   
         // p(w|z), size: K x V  
         double[][] Pw_z = new double[this.K][this.V];  
   
         // p(z|d,w), size: K x M x doc.size()  
         double[][][] Pz_dw = new double[this.K][this.M][];  
   
          // L: log-likelihood value  
          double L = -1;  
   
          // run EM algorithm  
          this.init(Pz, Pd_z, Pw_z, Pz_dw);  
          for (int it = 0; it < iters; it++)  
          {  
              // E-step  
              if (!this.Estep(Pz, Pd_z, Pw_z, Pz_dw))  
              {  
                  System.out.println("EM,  in E-step");  
              }  
   
              // M-step  
              if (!this.Mstep(Pz_dw, Pw_z, Pd_z, Pz))  
              {  
                  System.out.println("EM, in M-step");  
              }  
   
              L = calcLoglikelihood(Pz, Pd_z, Pw_z);  
              System.out.println("[" + it + "]" + "\tlikelihood: " + L);  
          }  
                   
          //print result  
          for (int m = 0; m < this.M; m++)  
          {  
              double norm = 0.0;  
              for (int z = 0; z < this.K; z++) {  
                  norm += Pd_z[z][m];  
              }  
              if (norm <= 0.0) norm = 1.0;  
              for (int z = 0; z < this.K; z++) {  
                  System.out.format("%10.4f", Pd_z[z][m]/norm);  
              }  
              System.out.println();  
         }   
         return false;  
     }  
      
     private boolean init(double[] Pz, double[][] Pd_z, double[][] Pw_z, double[][][] Pz_dw)  
     {  
         // p(z), size: K  
         double zvalue = (double) 1 / (double) this.K;  
         for (int z = 0; z < this.K; z++)  
         {  
             Pz[z] = zvalue;  
         }  
   
         // p(d|z), size: K x M  
         for (int z = 0; z < this.K; z++)  
         {  
             double norm = 0.0;  
             for (int m = 0; m < this.M; m++)  
             {  
                 Pd_z[z][m] = Math.random();  
                 norm += Pd_z[z][m];  
             }  
   
             for (int m = 0; m < this.M; m++)  
             {  
                 Pd_z[z][m] /= norm;  
             }  
         }  
   
         // p(w|z), size: K x V  
         for (int z = 0; z < this.K; z++)  
         {  
             double norm = 0.0;  
             for (int w = 0; w < this.V; w++)  
             {  
                 Pw_z[z][w] = Math.random();  
                 norm += Pw_z[z][w];  
             }  
   
             for (int w = 0; w < this.V; w++)  
             {  
                 Pw_z[z][w] /= norm;  
             }  
         }  
   
         // p(z|d,w), size: K x M x doc.size()  
         for (int z = 0; z < this.K; z++)  
         {  
             for (int m = 0; m < this.M; m++)  
             {  
                 Pz_dw[z][m] = new double[this.dataset.getDataAt(m).size()];  
             }  
         }  
         return false;  
     }  
   
     private boolean Estep(double[] Pz, double[][] Pd_z, double[][] Pw_z, double[][][] Pz_dw)  
     {  
         for (int m = 0; m < this.M; m++)  
         {  
             Data data = this.dataset.getDataAt(m);  
             for (int position = 0; position < data.size(); position++)  
             {  
                 // get word(dimension) at current position of document m  
                 int w = data.getFeatureAt(position).dim;  
   
                 double norm = 0.0;  
                 for (int z = 0; z < this.K; z++)  
                 {  
                     double val = Pz[z] * Pd_z[z][m] * Pw_z[z][w];  
                     Pz_dw[z][m][position] = val;  
                     norm += val;  
                 }  
   
                 // normalization  
                 for (int z = 0; z < this.K; z++)  
                 {  
                     Pz_dw[z][m][position] /= norm;  
                 }  
             }  
         }  
         return true;  
     }  
   
     private boolean Mstep(double[][][] Pz_dw, double[][] Pw_z, double[][] Pd_z, double[] Pz)  
     {  
         // p(w|z)  
         for (int z = 0; z < this.K; z++)  
         {  
             double norm = 0.0;  
             for (int w = 0; w < this.V; w++)  
             {  
                 double sum = 0.0;  
   
                 Posting[] postings = this.invertedIndex[w];  
                 for (Posting posting : postings)  
                 {  
                     int m = posting.docID;  
                     int position = posting.pos;  
                     double n = this.dataset.getDataAt(m).getFeatureAt(position).weight;  
                     sum += n * Pz_dw[z][m][position];  
                 }  
                 Pw_z[z][w] = sum;  
                 norm += sum;  
             }  
   
             // normalization  
             for (int w = 0; w < this.V; w++)  
             {  
                 Pw_z[z][w] /= norm;  
             }  
         }  
   
         // p(d|z)  
         for (int z = 0; z < this.K; z++)  
         {  
             double norm = 0.0;  
             for (int m = 0; m < this.M; m++)  
             {  
                 double sum = 0.0;  
                 Data d = this.dataset.getDataAt(m);  
                 for (int position = 0; position < d.size(); position++)  
                 {  
                     double n = d.getFeatureAt(position).weight;  
                     sum += n * Pz_dw[z][m][position];  
                 }  
                 Pd_z[z][m] = sum;  
                 norm += sum;  
             }  
   
             // normalization  
             for (int m = 0; m < this.M; m++)  
             {  
                 Pd_z[z][m] /= norm;  
             }  
         }  
   
         //This is definitely a bug  
         //p(z) values are even, but they should not be even  
         double norm = 0.0;  
         for (int z = 0; z < this.K; z++)  
         {  
             double sum = 0.0;  
             for (int m = 0; m < this.M; m++)  
             {  
                 sum += Pd_z[z][m];  
             }  
             Pz[z] = sum;  
             norm += sum;  
        }  
   
         // normalization  
         for (int z = 0; z < this.K; z++)  
         {  
             Pz[z] /= norm;  
             //System.out.format("%10.4f", Pz[z]);  //here you can print to see  
         }  
         //System.out.println();  
   
         return true;  
     }  
   
     private double calcLoglikelihood(double[] Pz, double[][] Pd_z, double[][] Pw_z)  
     {  
         double L = 0.0;  
         for (int m = 0; m < this.M; m++)  
         {  
             Data d = this.dataset.getDataAt(m);  
             for (int position = 0; position < d.size(); position++)  
             {  
                 Feature f = d.getFeatureAt(position);  
                 int w = f.dim;  
                 double n = f.weight;  
   
                 double sum = 0.0;  
                 for (int z = 0; z < this.K; z++)  
                 {  
                     sum += Pz[z] * Pd_z[z][m] * Pw_z[z][w];  
                 }  
                 L += n * Math.log10(sum);  
             }  
         }  
         return L;  
     }  
 }  
   
 public class PLSA {  
     public static void main(String[] args) {  
           
         ProbabilisticLSA plsa = new ProbabilisticLSA();  
         //the file is not used, the hard coded data is used instead, but file name should be valid,  
         //just replace the name by something valid.  
         plsa.doPLSA("C:\\Users\\APolar\\workspace\\PLSA\\src\\data.txt", 2, 60);  
         System.out.println("end PLSA");  
     }  
 }  

4 Estimate parameters in a simple mixture unigram language model by EM

在PLSA的参数估计中，我们使用了EM算法。EM算法经常用来估计包含“缺失数据”或者“隐含变量”模型的参数估计问题。这两个概念是互相联系的，当我们的模型中有“隐含变量”时，我们会认为原始数据是“不完全的数据”，因为隐含变量的值无法观察到；反过来，当我们的数据incomplete时，我们可以通过增加隐含变量来对“缺失数据”建模。

为了加深对EM算法的理解，下面我们来看如何用EM算法来估计一个简单混合unigram语言模型的参数。本部分主要参考Zhai老师的EM算法Notes。

4.1 最大似然估计与隐含变量引入

所谓unigram语言模型，就是构建语言模型是抛弃所有上下文信息，认为一个词出现的概率与其所在位置无关，具体概率图模型可以参见LDA及Gibbs Samping一文中的介绍。什么是混合模型(mixture model)呢？通俗的说混合概率模型就是由最基本的概率分布比如正态分布、多元分布等经过线性组合形成的新的概率模型，比如混合高斯模型就是由K个高斯分布线性组合而得到。混合模型中产生数据的确切“component model”对我们是隐藏的。我们假设混合模型包含两个multinomial component model,一个是背景词生成模型,另一个是主题词生成模型 $p(w|\theta_F)$ 。注意这种模型组成方式在概率语言模型中很常见。为了表示单词是哪个模型生成的，我们会为每个单词增加一个布尔类型的控制变量。

文档的对数似然函数为

$d_{ij}$ 为第i个文档中的第j个词， $\lambda$ 为表示文档中背景词比例的参数，通常根据经验给定。因此 $\lambda$ 是已知的，我们只需要估计 $p(w|\theta_F)$ 即可。

同样的我们首先试图用最大似然估计来估计参数。也就是去找最大化似然函数的参数值，有

这是一个关于 $p(w|\theta_F)$ 的函数，同样的， $p(w|\theta_F)$ 包含在了对数和中。因此很难求解极大值，用拉格朗日乘数法，你会发现偏导数等于0得到的方程很难求解。所以我们需要依赖数值算法，而EM算法就是其中常用的一种。

我们为每个单词引入一个布尔类型的变量z表示该单词是background word 还是topic word.即

这里我们假设"complete data"不仅包含可以观察到F中的所有单词，而且还包括隐含的变量z。那么根据EM算法，在E步骤我们计算“complete data”的对数似然函数有

比较一下 $L_c(\theta_F)$ 和 $L(\theta_F)$ ，求和运算在对数之外进行，因为此时通过控制变量z的设置，我们明确知道了单词是由背景词分布还是topic 词分布产生的。 $L_c(\theta_F)$ 和 $L(\theta_F)$ 的关系是怎样的呢？如果带估计参数是 $\theta$ ,原始数据是X，对于每一个原始数据分配了一个隐含变量H，则有

4.2 似然函数的下界分析

EM算法的基本思想就是初始随机给定待估计参数的值，然后通过E步骤和M步骤两步迭代去不断搜索更好的参数值。更好的参数值应该要满足使得似然函数更大。我们假设一个潜在的更好参数值是 $\theta$ ，第n次迭代M步骤得到的参数估计值是 $\theta^{(n)}$ ,那么两个参数值对应的似然函数和"complete data"的似然函数的差满足

我们寻找更好参数值的目标就是要最大化 $L(\theta) - L(\theta^{(n)})$ ,也等价于最大化 $L(\theta)$ 。我们来计算隐含变量在给定当前数据X和当前估计的参数值 $\theta^{(n)}$ 条件下的条件概率分布即 $p(H|X,\theta^{(n)})$ ，有

其中右边第三项是 $p(H|X,\theta^{(n)})$ 和 $p(H|X,\theta)$ 的相对熵，总为非负值。因此我们有

于是我们得到了潜在更好参数值 $\theta$ 的incomplete data似然函数的下界。这里我们尤其要注意右边后两项为常数，因为不包含 $\theta$ 。所以incomplete data似然函数的下界就是complete data似然函数的期望，也就是诸多EM算法讲义中出现的Q函数，表达式为

可以看出这个期望等于complete data似然函数乘以对应隐含变量条件概率再求和。对于我们要求解的问题，Q函数就是

这里多解释几句Q函数。单词相应的变量z为0时，单词为topic word,从多元分布 $\theta_F$ 中产生；当z为1时，单词为background word,从多元分布 $\theta$ 产生。同时我们也可以看到如何求Q函数即complete data似然函数的期望，也就是我们要最大化的那个期望(EM算法最大化期望指的就是这个期望)，我们要特别关注隐含变量在观察到数据X和前一轮估计出的参数值 $\theta^{(n)}$ 条件下取不同值的概率，而隐含变量不同的值对应complete data的不同的似然函数，我们要计算的所谓的期望就是指complete data的似然函数值在不同隐含变量取值情况下的期望值。

4.3 EM算法的一般步骤

通过4.2部分的分析，我们知道，如果我们在下一轮迭代中可以找到一个更好的参数值 $\theta^{(n+1)}$ 使得

那么相应的也会有 $L(\theta^{(n+1)}) > L(\theta^{(n)})$ ，因此EM算法的一般步骤如下

(1) 随机初始化参数值 $\theta^{(0)}$ ，也可以根据任何关于最佳参数取值范围的先验知识来初始化 $\theta^{(0)}$ 。

(2) 不断两步迭代寻找更优的参数值 $\theta^{(n+1)}$ ：

(a) E步骤（求期望）计算Q函数

(b)M步骤（最大化）通过最大化Q函数来寻找更优的参数值 $\theta^{(n+1)}$

(3) 当似然函数 $L(\theta)$ 收敛时算法停止。

这里需要注意如何尽量保证EM算法可以找到全局最优解而不是局部最优解呢？第一种方法是尝试许多不同的参数初始值，然后从得到的很多估计出的参数值中选取最优的；第二种方法是通过一个更简单的模型比如只有唯一全局最大值的模型来决定复杂模型的初始值。

通过前面的分析可以知道，EM算法的优势在于complete data的似然函数 $L_c({\theta})$ 更容易最大化，因为已经假定了隐含变量的取值，当然要乘以隐含变量取该值的条件概率，所以最终变成了最大化期望值。由于隐含变量变成了已知量，Q函数比原始incomplete data的似然函数更容易求最大值。因此对于“缺失数据”的情况，我们通过引入隐含变量使得complete data的似然函数容易最大化。

在E步骤中，主要的计算难点在于计算隐含变量的条件概率 $p(H|X,\theta^{(n)})$ ，在PLSA中就是

在我们这个简单混合语言模型的例子中就是

我们假设z的取值只于当前那一个单词有关，计算很容易，但是在LDA中用这种方法计算隐含变量的条件概率和最大化Q函数就比较复杂，可以参见原始LDA论文的参数推导部分。我们也可以用更简单的Gibbs Sampling来估计参数，具体可以参见LDA及Gibbs Samping。

继续我们的问题，下面便是M步骤。使用拉格朗日乘数法来求Q函数的最大值，约束条件是

构造拉格朗日辅助函数

对自变量 $p(w|\theta_F)$ 求偏导数

令偏导数为0解出来唯一的极值点

容易知道这里唯一的极值点就是最值点了。注意这里Zhai老师变换了一下变量表示，把对文档里面词的遍历转化成了对词典里面的term的遍历，因为z的取值至于对应的那一个单词有关，与上下文无关。因此E步骤求隐含变量的条件概率公式也相应变成了

最后我们就得到了简单混合Unigram语言模型的EM算法更新公式

即E步骤求隐含变量条件概率和M步骤最大化期望估计参数的公式

整个计算过程我们可以看到，我们不需要明确求出Q函数的表达式。取而代之的是我们计算隐含变量的条件概率，然后通过最大化Q函数来得到新的参数估计值。

因此EM算法两步迭代的过程实质是在寻找更好的待估计参数的值使得原始数据即incomplete data似然函数的下界不断提升，而这个“下界“就是引入隐含变量之后的complete data似然函数的期望，也就是诸多EM算法讲义中出现的Q函数，通过最大化Q函数来寻找更优的参数值。同时，上一轮估计出的参数值会在下一轮E步骤中当成已知条件计算隐含变量的条件概率，而这个条件概率又是最大化Q函数求新的参数值是所必需的。

5 Estimate parameters in GMM by EM

经过第3部分和第4部分用EM算法求解PLSA和简单unigram混合模型参数估计问题的详细分析，相信大部分读者已经对EM算法有了一定理解。关于EM算法的材料包括PRML会首先介绍用EM算法去求解混合高斯模型GMM的参数估计问题。下面就让我们来看看如何用EM算法来求解混合高斯模型GMM。

混合高斯模型GMM由K个高斯模型的线性组合组成，高斯模型就是正态分布模型，其中每个高斯模型我们成为一个”Component“，GMM的概率密度函数就是这K个高斯模型概率密度函数的线性组合即

其中

就是高斯分布即正态分布的概率密度函数。这是x为向量的情况，对于x为标量的情况就是

大部分读者应该对标量情形的概率分布更熟悉。这里啰嗦几句，最近看机器学习的论文和书籍，里面的随机变量基本都是多维向量，向量的计算比如加减乘除和求导运算都和标量运算有一些区别，尤其是求导运算，向量和矩阵的求导运算会麻烦很多，看pluskid推荐的一本册子Matrix Cookbook,里面有很多矩阵求导公式，直接查阅应该会更方便。

下面继续说GMM。根据上面给出的概率密度函数，如果我们要从 GMM 的分布中Sample一个样本，实际上可以分为两步：首先随机地在这个 Component 之中选一个，每个 Component 被选中的概率实际上就是它的系数 $\pi_k$ ，选中了 Component 之后，再单独地考虑从这个 Component 的分布中选取一个样本点就可以了。在PRML上，引入了一个K维二值随机变量z,只有1维是1，其他维都是0。唯一那个非零的维对应的就是GMM参数样本时被选中的那个高斯分布，而某一维非零的概率就是 $\pi_k$ ，即

下面我们开始估计GMM的参数，包括这K个高斯分布的所有均值和方差以及线性组合的系数。我们给每个样本数据增加一个隐含变量, 就是上面所说的K维向量，表明了是从哪个高斯分布中sample出来的。对应的概率图模型就是

观察变量的对数似然函数为

令对 $\mu_k$ 的偏导数等于0我们有

注意这里我们定义了 $\gamma(z_{nk})$ 表示后验概率，也就是第n个样本是有第k个高斯分布产生的概率。可以解出

就是由第K个高斯分布产生的样本点的总数；用聚类的观点看，就是聚到cluster k的样本点总数。然后我们将对数似然函数对 $\Sigma_k$ 求偏导数，令偏导数为0，得到协方差矩阵

最后我们求系数 $\pi_k$ 。注意到系数的和为1，即

这就是约束条件，最大化对数似然函数又成为了条件极值问题。我们仍然用拉格朗日乘数法，构造辅助函数如下

对 $\pi_k$ 求导数，令导数为0有

这样我们就估计出来系数项。

因此用EM算法估计GMM参数的步骤如下

(1) E步骤：估计数据由每个 Component 生成的概率:对于每个数据来说，它由第个 Component 生成的概率为

注意里面 $\mu_k$ 和 $\Sigma_k$ 也是需要我们估计的值，在E步骤我们假定 $\mu_k$ 和 $\Sigma_k$ 均已知，我们使用上一次迭代所得的值（或者初始值）。

(2)M步骤：由最大估计求出高斯分布的所有均值、方差和线性组合的系数，更新待估计的参数值，根据上面的推导，计算公式是

其中

(3)重复迭代E步骤和M步骤，直到似然函数

收敛时算法停止。

更多关于EM算法的深入分析，可以参考PRML第9章内容。

最后我们给出用EM算法估计GMM参数的Matlab实现，出自pluskid的博客

[plain]  view plain copy 
      
     
 function varargout = gmm(X, K_or_centroids)  
 % ============================================================  
 % Expectation-Maximization iteration implementation of  
 % Gaussian Mixture Model.  
 %  
 % PX = GMM(X, K_OR_CENTROIDS)  
 % [PX MODEL] = GMM(X, K_OR_CENTROIDS)  
 %  
 %  - X: N-by-D data matrix.  
 %  - K_OR_CENTROIDS: either K indicating the number of  
 %       components or a K-by-D matrix indicating the  
 %       choosing of the initial K centroids.  
 %  
 %  - PX: N-by-K matrix indicating the probability of each  
 %       component generating each point.  
 %  - MODEL: a structure containing the parameters for a GMM:  
 %       MODEL.Miu: a K-by-D matrix.  
 %       MODEL.Sigma: a D-by-D-by-K matrix.  
 %       MODEL.Pi: a 1-by-K vector.  
 % ============================================================  
    
     threshold = 1e-15;  
     [N, D] = size(X);  
    
     if isscalar(K_or_centroids)  
         K = K_or_centroids;  
         % randomly pick centroids  
         rndp = randperm(N);  
         centroids = X(rndp(1:K), :);  
     else  
         K = size(K_or_centroids, 1);  
         centroids = K_or_centroids;  
     end  
    
     % initial values  
     [pMiu pPi pSigma] = init_params();  
    
     Lprev = -inf;  
     while true  
         Px = calc_prob();  
    
         % new value for pGamma  
         pGamma = Px .* repmat(pPi, N, 1);  
         pGamma = pGamma ./ repmat(sum(pGamma, 2), 1, K);  
    
         % new value for parameters of each Component  
         Nk = sum(pGamma, 1);  
         pMiu = diag(1./Nk) * pGamma' * X;  
         pPi = Nk/N;  
         for kk = 1:K  
             Xshift = X-repmat(pMiu(kk, :), N, 1);  
             pSigma(:, :, kk) = (Xshift' * ...  
                 (diag(pGamma(:, kk)) * Xshift)) / Nk(kk);  
         end  
    
         % check for convergence  
         L = sum(log(Px*pPi'));  
         if L-Lprev < threshold  
             break;  
         end  
         Lprev = L;  
     end  
    
     if nargout == 1  
         varargout = {Px};  
     else  
         model = [];  
         model.Miu = pMiu;  
         model.Sigma = pSigma;  
         model.Pi = pPi;  
         varargout = {Px, model};  
     end  
    
     function [pMiu pPi pSigma] = init_params()  
         pMiu = centroids;  
         pPi = zeros(1, K);  
         pSigma = zeros(D, D, K);  
    
         % hard assign x to each centroids  
         distmat = repmat(sum(X.*X, 2), 1, K) + ...  
             repmat(sum(pMiu.*pMiu, 2)', N, 1) - ...  
             2*X*pMiu';  
         [dummy labels] = min(distmat, [], 2);  
    
         for k=1:K  
             Xk = X(labels == k, :);  
             pPi(k) = size(Xk, 1)/N;  
             pSigma(:, :, k) = cov(Xk);  
         end  
     end  
    
     function Px = calc_prob()  
         Px = zeros(N, K);  
         for k = 1:K  
             Xshift = X-repmat(pMiu(k, :), N, 1);  
             inv_pSigma = inv(pSigma(:, :, k));  
             tmp = sum((Xshift*inv_pSigma) .* Xshift, 2);  
             coef = (2*pi)^(-D/2) * sqrt(det(inv_pSigma));  
             Px(:, k) = coef * exp(-0.5*tmp);  
         end  
     end  
 end  
 
  
   
 6 全文总结
 
 本文主要介绍PLSA及EM算法，首先给出LSA（隐性语义分析）的早期方法SVD，然后引入基于概率的PLSA模型，接着我们详细分析了如何用EM算法估计PLSA、混合unigram 语言模型及混合高斯模型的参数过程，并总结了EM算法的一般形式和运用关键点。关于EM算法收敛性的证明可以参考斯坦福机器学习课程CS229 Andrew Ng老师的课程notes和JerryLead的笔记。EM算法在”缺失数据“和包含”隐含变量“的概率模型参数估计问题中非常常用，是机器学习、数据挖掘及NLP研究必须掌握的算法。
 
 
  参考文献及推荐Notes
 
 本文主要参考了Hoffman的PLSA论文、Zhai老师的EM Notes以及PRML第9章内容。
 [1] Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
 [2] Gregor Heinrich. Parameter estimation for text analysis. Technical report, 2004.
 
 [3] Wayne Xin Zhao, Note for pLSA and LDA, Technical report, 2011.
 [4] Freddy Chong Tat Chua. Dimensionality reduction and clustering of text documents.Technical report, 2009.
 [5] CX Zhai, A note on the expectation-maximization (em) algorithm 2007
 [6] Qiaozhu Mei, A Note on EM Algorithm for Probabilistic Latent Semantic Analysis 2008
 [7] pluskid, 漫谈Clustering, Gaussina Mixture Model
 [8] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.
 [9] Tomas Hoffman, Unsupervised Learning by Probabilistic Latent Semantic Analysis. 2011

你可能感兴趣的:(文本挖掘/自然语言处理)

零基础起步：基于GpuGeek的文本生成模型实战昊昊该干饭了人工智能 nlp 深度学习 gpu算力 gru
在自然语言处理（NLP）领域，文本生成任务广泛应用于问答系统、智能摘要、内容创作等方向。本文将带领读者使用GpuGeek平台，从注册、上传数据到实例部署与训练，完整构建一个基于GPT2模型的文本生成系统，实战掌握AI模型的云端开发流程。目录一、GpuGeek平台使用流程详解1.注册与登录2.数据上传3.创建训练实例4.启动与使用实例5.关闭实例（手动&自动）二、文本生成实战任务：微调GPT-21.
大模型智能运维详解：技术架构、落地挑战与行业实践 FreeTools FreeAiGuard 运维架构人工智能运维开发科技
大模型智能运维详解：技术架构、落地挑战与行业实践作者：开源大模型智能运维FreeAiOps在数字化转型加速的背景下，企业IT系统复杂度呈指数级增长，传统运维模式面临效率低下、故障定位困难、成本高昂等瓶颈。大模型技术的出现为智能运维提供了突破性解决方案，其通过自然语言处理、多模态数据分析与自动化决策能力，正在重塑运维工作的底层逻辑。本文将从技术原理、落地挑战、行业实践三个维度，系统解析大模型智能运维
Prompt Engineering 指南教程班磊闯Andrea
PromptEngineering指南教程Prompt-Engineering-Guidedair-ai/Prompt-Engineering-Guide:是一个用于指导对话人工智能开发的文档。适合用于学习对话人工智能开发和自然语言处理。特点是提供了详细的指南和参考资料，涵盖了多种对话人工智能技术和算法，并且可以自定义学习路径和行为。项目地址:https://gitcode.com/gh_mirr
电子词典开源项目源代码完全解析
本文还有配套的精品资源，点击获取简介：电子词典作为数字化学习工具，已由传统硬件发展为可定制的开源软件应用。本源代码提供深入理解其工作机制的机会，包括用户界面设计、词典数据库、查询引擎、翻译算法等。源代码通常由主流编程语言编写，涉及到数据结构与算法、UI设计、数据库管理、自然语言处理、本地化与多语言支持、版本控制、软件工程、API接口以及开源社区的协作和交流。1.电子词典工作原理和定制功能电子词典工
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
面向大语言模型幻觉的关键数据集：系统性综述与分类法致Great 语言模型人工智能自然语言处理
面向大语言模型幻觉的关键数据集：系统性综述与分类法摘要大语言模型（LargeLanguageModels,LLMs）在自然语言处理的多个领域取得了革命性进展，但其固有的“幻觉”问题——即生成看似合理但与事实不符或与上下文无关的内容——严重制约了其在关键应用中的可靠性与安全性。为了系统性地评估、理解并缓解LLM的幻觉现象，学术界和工业界开发了大量多样化的数据集与基准。本文对大模型幻觉领域的关键数据集
信息抽取数据集全景分析：分类体系、技术演进与挑战_DEEPSEEK 致Great 分类数据挖掘人工智能
信息抽取数据集全景分析：分类体系、技术演进与挑战摘要信息抽取（IE）作为自然语言处理的核心任务，是构建知识图谱、支持智能问答等应用的基础。近年来，随着深度学习技术的发展和大规模预训练模型的兴起，IE数据集呈现爆发式增长，其分析与评估对模型研发和领域迁移至关重要。本文基于对158个主流IE数据集的系统性梳理，首次提出“信息提取与命名实体识别数据集分类体系”。该体系涵盖8大类别（命名实体识别、关系提取
自然语言处理之文本生成：Recurrent Neural Networks (RNN)：序列模型与语言模型 zhubeibei168 自然语言处理自然语言处理 rnn 语言模型人工智能机器翻译生成对抗网络
自然语言处理之文本生成：RecurrentNeuralNetworks(RNN)：序列模型与语言模型自然语言处理简介NLP的基本概念自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域的一个重要分支&#
推荐几本人工智能方面的书（入门级）人邮异步社区人工智能深度学习神经网络
以下推荐几本适合入门人工智能的书籍，帮助你逐步建立基础知识和理解：一、数学基础类《数学之美》推荐理由：深入浅出地讲解了自然语言处理与搜索方向的数学原理，对于理解算法背后的数学逻辑非常有帮助。本书的章节名称，有“统计语言模型”“谈谈中文分词”“贾里尼克和现代语言处理”“布尔代数和搜索引擎”“信息指纹及其应用”等，似乎太过专业，实际上高中和大学低年级的同学们都能看得懂，当然本书因此也可以称得上是“高级
自然语言处理(NLP)中的文本生成控制技术 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据自然语言处理 easyui 人工智能 ai
自然语言处理(NLP)中的文本生成控制技术关键词：文本生成、可控生成、语言模型、Prompt工程、解码策略、条件控制、评估指标摘要：本文深入探讨自然语言处理中文本生成控制技术的最新进展。我们将从基础概念出发，系统分析各种控制方法的原理和实现，包括Prompt设计、解码策略优化、条件控制机制等核心内容。文章将结合数学模型、算法实现和实际案例，全面展示如何实现高质量、可控的文本生成，并探讨该领域面临的
Python爬虫实战：研究difflib库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui 开发语言前端 difflib
1.引言1.1研究背景与意义在信息爆炸的数字时代，互联网每天产生海量文本内容。据统计，全球新闻网站日均发布文章超过300万篇，社交媒体平台产生的文本信息量更以亿级单位增长。这种信息过载带来了内容同质化、抄袭剽窃等问题，给新闻媒体行业、学术研究领域和搜索引擎优化等带来了挑战。文本相似度分析作为自然语言处理的重要分支，能够有效识别内容间的相似程度，具有重要的应用价值：新闻媒体行业：通过检测新闻抄袭和重
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
大模型本地部署，拥有属于自己的ChatGpt 小妖同学学AI chatgpt
ChatGpt以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力。不管用于文案撰写还是程序辅助开发都大大提高了我们的工作效率，但是其使用有一定的门槛，让我们大多数人都望而却步，今天我们利用ollama实现本地大模型的步骤，让我们轻松拥有自己的人工智能。Ollama作为一个轻量级的工具，可以帮助用户在本地运行这些大型语言模型，无需持续依赖云服务，既保护了数据隐私，又能减少网
Spring AI 结合 MCP MySQL 实现对话式数据库查询没刮胡子软件开发技术实战专栏人工智能AI Spring 数据库 spring 人工智能 spring-ai mcp-server mysql
在现代应用开发中，将人工智能与数据库查询结合可以创造更自然、更智能的用户交互方式。下面我将详细介绍如何使用SpringAI框架结合MCP（可能指MySQL连接池或相关组件）实现对话中的数据库查询功能。什么是SpringAI和MCPMySQLSpringAI框架概述SpringAI是基于Spring生态的人工智能集成框架，它提供了：与大型语言模型(LLM)的集成能力对话管理和自然语言处理功能业务逻辑
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
卷积神经网络亿只小灿灿 Python 算法与数据结构人工智能 cnn 人工智能神经网络
一、引言在当今人工智能的浪潮中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？本文将深入探讨这些问题，并通过Python代码实现一个简单的卷积神经网络，以帮助读者更好地理解和掌握这一强大的技术。二、卷积神经
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
embedding模型有哪些？如何选择合适的embedding模型？行云流水AI笔记 embedding
embedding模型是一种将数据映射到低维空间的模型，常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型：Word2Vec：CBOW（ContinuousBag-of-Words）：通过上下文预测中心词。Skip-Gram：通过中心词预测上下文。GloVe（GlobalVectorsforWordRepresentation）：结合了词频统计和Word2Vec的
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少