jazywoo123

概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现

本系列博文介绍常见概率语言模型及其变形模型，主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下

第一篇：PLSA及EM算法

第二篇：LDA及Gibbs Samping

第三篇：LDA变形模型-Twitter LDA，TimeUserLDA，ATM，Labeled-LDA，MaxEnt-LDA等

第四篇：基于变形LDA的paper分类总结（bibliography）

第五篇：LDA Gibbs Sampling 的JAVA实现

第五篇 LDA Gibbs Sampling的JAVA 实现

在本系列博文的前两篇，我们系统介绍了PLSA, LDA以及它们的参数Inference 方法，重点分析了模型表示和公式推导部分。曾有位学者说，“做研究要顶天立地”，意思是说做研究空有模型和理论还不够，我们还得有扎实的程序code和真实数据的实验结果来作为支撑。本文就重点分析 LDA Gibbs Sampling的JAVA 实现，并给出apply到newsgroup18828新闻文档集上得出的Topic建模结果。

本项目Github地址 https://github.com/yangliuy/LDAGibbsSampling

1、文档集预处理

要用LDA对文本进行topic建模，首先要对文本进行预处理，包括token，去停用词，stem，去noise词，去掉低频词等等。当语料库比较大时，我们也可以不进行stem。然后将文本转换成term的index表示形式，因为后面实现LDA的过程中经常需要在term和index之间进行映射。Documents类的实现如下，里面定义了Document内部类，用于描述文本集合中的文档。

[java]  view plain copy 
     
    
 package liuyang.nlp.lda.main;  
   
 import java.io.File;  
 import java.util.ArrayList;  
 import java.util.HashMap;  
 import java.util.Map;  
 import java.util.regex.Matcher;  
 import java.util.regex.Pattern;  
   
 import liuyang.nlp.lda.com.FileUtil;  
 import liuyang.nlp.lda.com.Stopwords;  
   
 /**Class for corpus which consists of M documents 
  * @author yangliu 
  * @blog http://blog.csdn.net/yangliuy 
  * @mail [email protected] 
  */  
   
 public class Documents {  
       
     ArrayList<Document> docs;   
     Map<String, Integer> termToIndexMap;  
     ArrayList<String> indexToTermMap;  
     Map<String,Integer> termCountMap;  
       
     public Documents(){  
         docs = new ArrayList<Document>();  
         termToIndexMap = new HashMap<String, Integer>();  
         indexToTermMap = new ArrayList<String>();  
         termCountMap = new HashMap<String, Integer>();  
     }  
       
     public void readDocs(String docsPath){  
         for(File docFile : new File(docsPath).listFiles()){  
             Document doc = new Document(docFile.getAbsolutePath(), termToIndexMap, indexToTermMap, termCountMap);  
             docs.add(doc);  
         }  
     }  
       
     public static class Document {    
         private String docName;  
         int[] docWords;  
           
         public Document(String docName, Map<String, Integer> termToIndexMap, ArrayList<String> indexToTermMap, Map<String, Integer> termCountMap){  
             this.docName = docName;  
             //Read file and initialize word index array  
             ArrayList<String> docLines = new ArrayList<String>();  
             ArrayList<String> words = new ArrayList<String>();  
             FileUtil.readLines(docName, docLines);  
             for(String line : docLines){  
                 FileUtil.tokenizeAndLowerCase(line, words);  
             }  
             //Remove stop words and noise words  
             for(int i = 0; i < words.size(); i++){  
                 if(Stopwords.isStopword(words.get(i)) || isNoiseWord(words.get(i))){  
                     words.remove(i);  
                     i--;  
                 }  
             }  
             //Transfer word to index  
             this.docWords = new int[words.size()];  
             for(int i = 0; i < words.size(); i++){  
                 String word = words.get(i);  
                 if(!termToIndexMap.containsKey(word)){  
                     int newIndex = termToIndexMap.size();  
                     termToIndexMap.put(word, newIndex);  
                     indexToTermMap.add(word);  
                     termCountMap.put(word, new Integer(1));  
                     docWords[i] = newIndex;  
                 } else {  
                     docWords[i] = termToIndexMap.get(word);  
                     termCountMap.put(word, termCountMap.get(word) + 1);  
                 }  
             }  
             words.clear();  
         }  
           
         public boolean isNoiseWord(String string) {  
             // TODO Auto-generated method stub  
             string = string.toLowerCase().trim();  
             Pattern MY_PATTERN = Pattern.compile(".*[a-zA-Z]+.*");  
             Matcher m = MY_PATTERN.matcher(string);  
             // filter @xxx and URL  
             if(string.matches(".*www\\..*") || string.matches(".*\\.com.*") ||   
                     string.matches(".*http:.*") )  
                 return true;  
             if (!m.matches()) {  
                 return true;  
             } else  
                 return false;  
         }  
           
     }  
 }  

2 LDA Gibbs Sampling

文本预处理完毕后我们就可以实现LDA Gibbs Sampling。首先我们要定义需要的参数，我的实现中在程序中给出了参数默认值，同时也支持配置文件覆盖，程序默认优先选用配置文件的参数设置。整个算法流程包括模型初始化，迭代Inference，不断更新主题和待估计参数，最后输出收敛时的参数估计结果。

包含主函数的配置参数解析类如下：

[java]  view plain copy 
     
    
 package liuyang.nlp.lda.main;  
   
 import java.io.File;  
 import java.io.IOException;  
 import java.util.ArrayList;  
   
 import liuyang.nlp.lda.com.FileUtil;  
 import liuyang.nlp.lda.conf.ConstantConfig;  
 import liuyang.nlp.lda.conf.PathConfig;  
   
 /**Liu Yang's implementation of Gibbs Sampling of LDA 
  * @author yangliu 
  * @blog http://blog.csdn.net/yangliuy 
  * @mail [email protected] 
  */  
   
 public class LdaGibbsSampling {  
       
     public static class modelparameters {  
         float alpha = 0.5f; //usual value is 50 / K  
         float beta = 0.1f;//usual value is 0.1  
         int topicNum = 100;  
         int iteration = 100;  
         int saveStep = 10;  
         int beginSaveIters = 50;  
     }  
       
     /**Get parameters from configuring file. If the  
      * configuring file has value in it, use the value. 
      * Else the default value in program will be used 
      * @param ldaparameters 
      * @param parameterFile 
      * @return void 
      */  
     private static void getParametersFromFile(modelparameters ldaparameters,  
             String parameterFile) {  
         // TODO Auto-generated method stub  
         ArrayList<String> paramLines = new ArrayList<String>();  
         FileUtil.readLines(parameterFile, paramLines);  
         for(String line : paramLines){  
             String[] lineParts = line.split("\t");  
             switch(parameters.valueOf(lineParts[0])){  
             case alpha:  
                 ldaparameters.alpha = Float.valueOf(lineParts[1]);  
                 break;  
             case beta:  
                 ldaparameters.beta = Float.valueOf(lineParts[1]);  
                 break;  
             case topicNum:  
                 ldaparameters.topicNum = Integer.valueOf(lineParts[1]);  
                 break;  
             case iteration:  
                 ldaparameters.iteration = Integer.valueOf(lineParts[1]);  
                 break;  
             case saveStep:  
                 ldaparameters.saveStep = Integer.valueOf(lineParts[1]);  
                 break;  
             case beginSaveIters:  
                 ldaparameters.beginSaveIters = Integer.valueOf(lineParts[1]);  
                 break;  
             }  
         }  
     }  
       
     public enum parameters{  
         alpha, beta, topicNum, iteration, saveStep, beginSaveIters;  
     }  
       
     /** 
      * @param args 
      * @throws IOException  
      */  
     public static void main(String[] args) throws IOException {  
         // TODO Auto-generated method stub  
         String originalDocsPath = PathConfig.ldaDocsPath;  
         String resultPath = PathConfig.LdaResultsPath;  
         String parameterFile= ConstantConfig.LDAPARAMETERFILE;  
           
         modelparameters ldaparameters = new modelparameters();  
         getParametersFromFile(ldaparameters, parameterFile);  
         Documents docSet = new Documents();  
         docSet.readDocs(originalDocsPath);  
         System.out.println("wordMap size " + docSet.termToIndexMap.size());  
         FileUtil.mkdir(new File(resultPath));  
         LdaModel model = new LdaModel(ldaparameters);  
         System.out.println("1 Initialize the model ...");  
         model.initializeModel(docSet);  
         System.out.println("2 Learning and Saving the model ...");  
         model.inferenceModel(docSet);  
         System.out.println("3 Output the final model ...");  
         model.saveIteratedModel(ldaparameters.iteration, docSet);  
         System.out.println("Done!");  
     }  
 }  

LDA 模型实现类如下

[java]  view plain copy 
     
    
 package liuyang.nlp.lda.main;  
   
 /**Class for Lda model 
  * @author yangliu 
  * @blog http://blog.csdn.net/yangliuy 
  * @mail [email protected] 
  */  
 import java.io.BufferedWriter;  
 import java.io.FileWriter;  
 import java.io.IOException;  
 import java.util.ArrayList;  
 import java.util.Collections;  
 import java.util.Comparator;  
 import java.util.List;  
   
 import liuyang.nlp.lda.com.FileUtil;  
 import liuyang.nlp.lda.conf.PathConfig;  
   
 public class LdaModel {  
       
     int [][] doc;//word index array  
     int V, K, M;//vocabulary size, topic number, document number  
     int [][] z;//topic label array  
     float alpha; //doc-topic dirichlet prior parameter   
     float beta; //topic-word dirichlet prior parameter  
     int [][] nmk;//given document m, count times of topic k. M*K  
     int [][] nkt;//given topic k, count times of term t. K*V  
     int [] nmkSum;//Sum for each row in nmk  
     int [] nktSum;//Sum for each row in nkt  
     double [][] phi;//Parameters for topic-word distribution K*V  
     double [][] theta;//Parameters for doc-topic distribution M*K  
     int iterations;//Times of iterations  
     int saveStep;//The number of iterations between two saving  
     int beginSaveIters;//Begin save model at this iteration  
       
     public LdaModel(LdaGibbsSampling.modelparameters modelparam) {  
         // TODO Auto-generated constructor stub  
         alpha = modelparam.alpha;  
         beta = modelparam.beta;  
         iterations = modelparam.iteration;  
         K = modelparam.topicNum;  
         saveStep = modelparam.saveStep;  
         beginSaveIters = modelparam.beginSaveIters;  
     }  
   
     public void initializeModel(Documents docSet) {  
         // TODO Auto-generated method stub  
         M = docSet.docs.size();  
         V = docSet.termToIndexMap.size();  
         nmk = new int [M][K];  
         nkt = new int[K][V];  
         nmkSum = new int[M];  
         nktSum = new int[K];  
         phi = new double[K][V];  
         theta = new double[M][K];  
           
         //initialize documents index array  
         doc = new int[M][];  
         for(int m = 0; m < M; m++){  
             //Notice the limit of memory  
             int N = docSet.docs.get(m).docWords.length;  
             doc[m] = new int[N];  
             for(int n = 0; n < N; n++){  
                 doc[m][n] = docSet.docs.get(m).docWords[n];  
             }  
         }  
           
         //initialize topic lable z for each word  
         z = new int[M][];  
         for(int m = 0; m < M; m++){  
             int N = docSet.docs.get(m).docWords.length;  
             z[m] = new int[N];  
             for(int n = 0; n < N; n++){  
                 int initTopic = (int)(Math.random() * K);// From 0 to K - 1  
                 z[m][n] = initTopic;  
                 //number of words in doc m assigned to topic initTopic add 1  
                 nmk[m][initTopic]++;  
                 //number of terms doc[m][n] assigned to topic initTopic add 1  
                 nkt[initTopic][doc[m][n]]++;  
                 // total number of words assigned to topic initTopic add 1  
                 nktSum[initTopic]++;  
             }  
              // total number of words in document m is N  
             nmkSum[m] = N;  
         }  
     }  
   
     public void inferenceModel(Documents docSet) throws IOException {  
         // TODO Auto-generated method stub  
         if(iterations < saveStep + beginSaveIters){  
             System.err.println("Error: the number of iterations should be larger than " + (saveStep + beginSaveIters));  
             System.exit(0);  
         }  
         for(int i = 0; i < iterations; i++){  
             System.out.println("Iteration " + i);  
             if((i >= beginSaveIters) && (((i - beginSaveIters) % saveStep) == 0)){  
                 //Saving the model  
                 System.out.println("Saving model at iteration " + i +" ... ");  
                 //Firstly update parameters  
                 updateEstimatedParameters();  
                 //Secondly print model variables  
                 saveIteratedModel(i, docSet);  
             }  
               
             //Use Gibbs Sampling to update z[][]  
             for(int m = 0; m < M; m++){  
                 int N = docSet.docs.get(m).docWords.length;  
                 for(int n = 0; n < N; n++){  
                     // Sample from p(z_i|z_-i, w)  
                     int newTopic = sampleTopicZ(m, n);  
                     z[m][n] = newTopic;  
                 }  
             }  
         }  
     }  
       
     private void updateEstimatedParameters() {  
         // TODO Auto-generated method stub  
         for(int k = 0; k < K; k++){  
             for(int t = 0; t < V; t++){  
                 phi[k][t] = (nkt[k][t] + beta) / (nktSum[k] + V * beta);  
             }  
         }  
           
         for(int m = 0; m < M; m++){  
             for(int k = 0; k < K; k++){  
                 theta[m][k] = (nmk[m][k] + alpha) / (nmkSum[m] + K * alpha);  
             }  
         }  
     }  
   
     private int sampleTopicZ(int m, int n) {  
         // TODO Auto-generated method stub  
         // Sample from p(z_i|z_-i, w) using Gibbs upde rule  
           
         //Remove topic label for w_{m,n}  
         int oldTopic = z[m][n];  
         nmk[m][oldTopic]--;  
         nkt[oldTopic][doc[m][n]]--;  
         nmkSum[m]--;  
         nktSum[oldTopic]--;  
           
         //Compute p(z_i = k|z_-i, w)  
         double [] p = new double[K];  
         for(int k = 0; k < K; k++){  
             p[k] = (nkt[k][doc[m][n]] + beta) / (nktSum[k] + V * beta) * (nmk[m][k] + alpha) / (nmkSum[m] + K * alpha);  
         }  
           
         //Sample a new topic label for w_{m, n} like roulette  
         //Compute cumulated probability for p  
         for(int k = 1; k < K; k++){  
             p[k] += p[k - 1];  
         }  
         double u = Math.random() * p[K - 1]; //p[] is unnormalised  
         int newTopic;  
         for(newTopic = 0; newTopic < K; newTopic++){  
             if(u < p[newTopic]){  
                 break;  
             }  
         }  
           
         //Add new topic label for w_{m, n}  
         nmk[m][newTopic]++;  
         nkt[newTopic][doc[m][n]]++;  
         nmkSum[m]++;  
         nktSum[newTopic]++;  
         return newTopic;  
     }  
   
     public void saveIteratedModel(int iters, Documents docSet) throws IOException {  
         // TODO Auto-generated method stub  
         //lda.params lda.phi lda.theta lda.tassign lda.twords  
         //lda.params  
         String resPath = PathConfig.LdaResultsPath;  
         String modelName = "lda_" + iters;  
         ArrayList<String> lines = new ArrayList<String>();  
         lines.add("alpha = " + alpha);  
         lines.add("beta = " + beta);  
         lines.add("topicNum = " + K);  
         lines.add("docNum = " + M);  
         lines.add("termNum = " + V);  
         lines.add("iterations = " + iterations);  
         lines.add("saveStep = " + saveStep);  
         lines.add("beginSaveIters = " + beginSaveIters);  
         FileUtil.writeLines(resPath + modelName + ".params", lines);  
           
         //lda.phi K*V  
         BufferedWriter writer = new BufferedWriter(new FileWriter(resPath + modelName + ".phi"));         
         for (int i = 0; i < K; i++){  
             for (int j = 0; j < V; j++){  
                 writer.write(phi[i][j] + "\t");  
             }  
             writer.write("\n");  
         }  
         writer.close();  
           
         //lda.theta M*K  
         writer = new BufferedWriter(new FileWriter(resPath + modelName + ".theta"));  
         for(int i = 0; i < M; i++){  
             for(int j = 0; j < K; j++){  
                 writer.write(theta[i][j] + "\t");  
             }  
             writer.write("\n");  
         }  
         writer.close();  
           
         //lda.tassign  
         writer = new BufferedWriter(new FileWriter(resPath + modelName + ".tassign"));  
         for(int m = 0; m < M; m++){  
             for(int n = 0; n < doc[m].length; n++){  
                 writer.write(doc[m][n] + ":" + z[m][n] + "\t");  
             }  
             writer.write("\n");  
         }  
         writer.close();  
           
         //lda.twords phi[][] K*V  
         writer = new BufferedWriter(new FileWriter(resPath + modelName + ".twords"));  
         int topNum = 20; //Find the top 20 topic words in each topic  
         for(int i = 0; i < K; i++){  
             List<Integer> tWordsIndexArray = new ArrayList<Integer>();   
             for(int j = 0; j < V; j++){  
                 tWordsIndexArray.add(new Integer(j));  
             }  
             Collections.sort(tWordsIndexArray, new LdaModel.TwordsComparable(phi[i]));  
             writer.write("topic " + i + "\t:\t");  
             for(int t = 0; t < topNum; t++){  
                 writer.write(docSet.indexToTermMap.get(tWordsIndexArray.get(t)) + " " + phi[i][tWordsIndexArray.get(t)] + "\t");  
             }  
             writer.write("\n");  
         }  
         writer.close();  
     }  
       
     public class TwordsComparable implements Comparator<Integer> {  
           
         public double [] sortProb; // Store probability of each word in topic k  
           
         public TwordsComparable (double[] sortProb){  
             this.sortProb = sortProb;  
         }  
   
         @Override  
         public int compare(Integer o1, Integer o2) {  
             // TODO Auto-generated method stub  
             //Sort topic word index according to the probability of each word in topic k  
             if(sortProb[o1] > sortProb[o2]) return -1;  
             else if(sortProb[o1] < sortProb[o2]) return 1;  
             else return 0;  
         }  
     }  
 }  

程序的实现细节可以参考我在程序中给出的注释，如果理解LDA Gibbs Sampling的算法流程，上面的代码很好理解。其实排除输入输出和参数解析的代码，标准LDA 的Gibbs sampling只需要不到200行程序就可以搞定。当然，里面有很多可以考虑优化和变形的地方。

还有com和conf目录下的源文件分别放置常用函数和配置类，完整的JAVA工程见Github https://github.com/yangliuy/LDAGibbsSampling

3 用LDA Gibbs Sampling对Newsgroup 18828文档集进行主题分析

下面我们给出将上面的LDA Gibbs Sampling的实现Apply到Newsgroup 18828文档集进行主题分析的结果。我实验时用到的数据已经上传到Github中，感兴趣的朋友可以直接从Github中下载工程运行。我在Newsgroup 18828文档集随机选择了9个目录，每个目录下选择一个文档，将它们放置在data\LdaOriginalDocs目录下，我设定的模型参数如下

[plain]  view plain copy 
     
    
 alpha   0.5  
 beta    0.1  
 topicNum    10  
 iteration   100  
 saveStep    10  
 beginSaveIters  80  

即设定alpha和beta的值为0.5和0.1， Topic数目为10，迭代100次，从第80次开始保存模型结果，每10次保存一次。

经过100次Gibbs Sampling迭代后，程序输出10个Topic下top的topic words以及对应的概率值如下

我们可以看到虽然是unsupervised learning, LDA分析出来的Topic words还是非常make sense的。比如第5个topic是宗教类的，第6个topic是天文类的，第7个topic是计算机类的。程序的输出还包括模型参数.param文件，topic-word分布phi向量.phi文件，doc-topic分布theta向量.theta文件以及每个文档中每个单词分配到的主题label的.tassign文件。感兴趣的朋友可以从Github https://github.com/yangliuy/LDAGibbsSampling 下载完整工程自己换用其他数据集进行主题分析实验。本程序是初步实现版本，如果大家发现任何问题或者bug欢迎交流，我第一时间在Github修复bug更新版本。

4 参考文献

[1] Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[2] Gregor Heinrich. Parameter estimation for text analysis. Technical report, 2004.
[3] Wang Yi. Distributed Gibbs Sampling of Latent Topic Models: The Gritty Details Technical report, 2005.

[4] Wayne Xin Zhao, Note for pLSA and LDA, Technical report, 2011.

[5] Freddy Chong Tat Chua. Dimensionality reduction and clustering of text documents.Technical report, 2009.

[6] Jgibblda, http://jgibblda.sourceforge.net/

[7]David M. Blei, Andrew Y. Ng, and Michael I. Jordan. 2003. Latent dirichlet allocation. J. Mach. Learn. Res. 3 (March 2003), 993-1022.

模型部署实战：PyTorch生产化指南小诸葛IT课堂 pytorch 人工智能 python
‌一、为什么要做模型部署？‌模型部署是将训练好的模型‌投入实际应用‌的关键步骤，涉及：模型格式转换（TorchScript/ONNX）性能优化（量化/剪枝）构建API服务移动端集成本章使用ResNet18实现图像分类，并演示完整部署流程。‌二、模型转换：TorchScript与ONNX‌‌1.准备预训练模型importtorchimporttorchvision#加载预训练模型model=torc
C++基础匿名对象，友元和常成员(const) 没有百宝袋的哆啦A梦 c++java jvm
目录学习内容：1.匿名对象2.友元2.1友元的引入2.2友元函数2.3友元类2.4友元的总结3.常成员（const）3.1常成员的引入3.2常成员函数3.3常对象3.4mutable关键字3.5常函数3.6关于C/C++中const的使用(面试题)学习内容：1.匿名对象1>所谓匿名对象，就是没有名字的对象，生命周期只在当前语句内，所以可以理解成时一个将亡值2>定义格式：直接调用类的构造函数3>使用
C语言：while Flag- L C语言 c语言 while do while
1.while在C语言中，while是一种循环控制语句，用于重复执行一段代码，直到指定的条件不再满足为止。语法结构while(条件表达式){//循环体：当条件表达式为真时，重复执行的代码块语句;}当条件表达式当它的值为真（非零）时，循环体中的代码会被执行；执行完循环体后，会再次检查条件表达式的值，如果仍然为真，则继续执行循环体，直到表达式的值为假（零），循环结束。1.1我爱你循环10遍#inclu
C#自动升级系统完整实现教程 Jay星晴
本文还有配套的精品资源，点击获取简介：在C#开发中，实现软件自动升级机制是确保用户使用最新程序版本的重要技术手段。本文将详细介绍自动升级的基本概念、实现步骤、相关技术以及实际操作中需要关注的事项。内容涵盖如何通过网络请求检测版本更新、下载更新包、执行安装过程以及重启应用，同时强调安全性和用户体验等关键点。1.自动升级基本概念自动升级是什么自动升级是软件开发中的一种重要机制，允许软件在无需用户干预的
智能家居产品很酷，记住这3个使用规则，让生活更安全宛如清风智能家居产品安全智能家居使用原则 SCA 智能家居安全物联网产品智能手表智能门锁 SCA
前言：在急于拥抱物联网设备的过程中，我们不能为了增加便利而以隐私和安全为代价。一个万物互联的世界来了。物联网革命改善了我们的家庭生活，为我们提供了从智能茶壶到智能洗衣机再到智能冰箱的各种智能家用电器，同时我们还拥有智能门铃和门锁、智能手机、智能手表等物联网设备，这使我们可以随时可查看追踪孩子位置的智能手表，以及追踪健康状况的健身追踪器。所有这些能使生活更加轻松，但这并不一定意味着它使我们的生活更加
Spring Boot 性能优化：如何解决高并发下的瓶颈问题？ zhyoobo spring boot 性能优化后端
一、高并发场景的挑战与诊断方法论1.1典型性能瓶颈四层模型在2000+QPS的电商秒杀场景中，SpringBoot应用常面临四层压力传导：网络层瓶颈TCP连接耗尽导致SYN队列溢出（Linux默认仅1024个）SSL握手消耗大量CPU资源（RSA2048单次握手约需10ms）HTTP/1.1的队头阻塞问题（单个连接只能顺序处理请求）应用层瓶颈线程池配置不当引发的上下文切换风暴（默认Tomcat线程
golang中的接口平谷一勺 Golang基础篇 golang 开发语言后端 go接口 go接口实现 go接口继承
1.简介在go中的接口是以一种类型，一种抽象的类型。接口(interface)是一组函数method的集合，go中的接口不能包含任何变量。在go中接口中的所有方法都没有方法体，接口定义了一个对象的行为规范，只定义规范不实现。接口体现了程序的多态和高内聚低耦合的思想。go中的接口也是一种数据类型，不需要显示实现，只需要一个变量含有接口类型中的所有方法，那么这个变量就实现了这个接口。2.接口的定义in
算力技术演进与多场景融合路径智能计算研究中心其他
内容概要算力技术的演进正经历从异构计算到量子计算的范式跃迁。当前技术图谱中，芯片制程突破与架构创新持续推动算力密度提升，如5nm以下先进工艺与存算一体设计显著增强运算单元效率。与此同时，模型压缩、数据预处理等算法优化手段使单位算力产出提高30%以上。典型应用场景中，工业互联网通过自适应计算实现毫秒级实时控制，医疗影像领域借助分布式计算完成TB级数据处理，而智能安防系统依托边缘计算降低端到端时延至5
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
联邦学习算法安全优化与可解释性研究智能计算研究中心其他
内容概要本研究围绕联邦学习算法的安全性优化与模型可解释性增强展开系统性探索。首先，针对联邦学习中数据隐私泄露与模型性能损耗的固有矛盾，提出一种融合差分隐私与动态权重聚合的协同优化框架，通过分层加密机制降低敏感信息暴露风险。其次，引入可解释性算法（如LIME与SHAP）构建透明化决策路径，结合注意力机制实现特征贡献度的可视化映射，有效提升模型在医疗影像异常检测与金融欺诈识别场景中的可信度。此外，研究
DeepSeek多语言670亿参数高效创作解析智能计算研究中心其他
内容概要本文聚焦DeepSeek系列模型的核心技术突破与应用价值，通过解析其混合专家架构（MoE）的设计逻辑与670亿参数的规模化优势，揭示其在多语言处理、视觉语言理解及代码生成领域的创新表现。从技术特性出发，文章将对比OpenAI等主流模型的性能差异，探讨参数效率与计算资源优化如何支撑低成本、高精度的内容生成场景，例如学术论文写作、智能选题规划及SEO关键词拓展。同时，通过分析DeepSeekP
算力融合创新与多场景应用生态构建智能计算研究中心其他
内容概要算力作为数字经济的核心驱动力，正经历从单一计算范式向融合架构的跨越式演进。随着异构计算、光子计算等底层技术的突破，算力资源逐步形成跨架构协同、多模态联动的智能供给体系，支撑工业互联网、医疗影像、智能安防等场景实现效率跃升。与此同时，量子计算与神经形态计算的前沿探索，正在重塑科学计算与实时决策的技术边界。建议行业关注算力可扩展性与安全标准的协同设计，通过动态调度算法与分布式架构优化，构建弹性
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
H800核心性能优化技术智能计算研究中心其他
内容概要作为新一代AI加速卡的核心创新载体，H800通过异构计算架构与动态能效管理技术的协同设计，实现了从硬件底层到应用层的系统性优化。其技术突破聚焦于张量核心重构带来的计算密度提升、混合精度运算对资源利用率的增强，以及智能散热方案在复杂负载场景下的稳定性保障。这些创新不仅显著提升了30%以上的能效比，更通过精细化任务调度机制，解决了深度学习训练中高并发数据处理与模型参数同步的效率瓶颈。值得关注的
Goose开源程序本地机上 AI 代理，能够从头到尾自动执行复杂的开发任务。Goose 不仅可以提供代码建议，还可以自主构建整个项目、编写和执行代码、调试故障、编排工作流程以及与外部 API 交互 struggle2025 策略模式人工智能交互
一、软件下载文末提供程序和源码下载Goose是您的机上AI代理，能够从头到尾自动执行复杂的开发任务。Goose不仅可以提供代码建议，还可以自主构建整个项目、编写和执行代码、调试故障、编排工作流程以及与外部API交互。无论您是在构建想法原型、优化现有代码，还是管理复杂的工程管道，goose都能适应您的工作流程并精确执行任务。goose专为实现最大的灵活性而设计，可与任何LLMAPI配合使用，并与支持
人工智能知识架构详解 CodeJourney. 数据库人工智能算法架构
人工智能（ArtificialIntelligence，简称AI）作为当今最具影响力和发展潜力的技术领域之一，正深刻地改变着我们的生活、工作和社会。从智能家居到自动驾驶，从医疗诊断到金融投资，人工智能的应用无处不在。要全面深入地理解和掌握人工智能，构建一个清晰、系统的知识架构至关重要。二、基础数学（一）线性代数线性代数是人工智能的重要数学基础之一。矩阵运算在数据表示和变换中起着核心作用。例如，在图
【搞定Go语言】第3天1：Go语言操作MySQL 就叫一片白纸 Go语言
MySQL是业界常用的关系型数据库，本文介绍了Go语言如何操作MySQL数据库。Go操作MySQL连接Go语言中的database/sql包提供了保证SQL或类SQL数据库的泛用接口，并不提供具体的数据库驱动。使用database/sql包时必须注入（至少）一个数据库驱动。我们常用的数据库基本上都有完整的第三方实现。例如：MySQL驱动下载依赖goget-ugithub.com/go-sql-dr
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
ROS导航栈中的move_base模块详解：架构、组件关系与数据流 YRr YRr 架构 ros move_base
ROS导航栈中的move_base模块详解：架构、组件关系与数据流摘要RobotOperatingSystem（ROS）作为广泛应用于机器人开发的开源框架，其导航栈中的move_base模块是实现机器人自主导航的核心组件。本文将深入解析move_base模块的整体架构，详述其主要组成部分及相互关系，探讨节点、话题与传感器数据的流向，并通过实例说明这些组件如何协同工作以实现高效、稳定的自主导航功能。
完全背包 ShiYi22 算法
题目二维数组解法1、确定dp数组以及下标的含义dp[i][j]表示从下标为[0-i]的物品，每个物品可以取无限次，放进容量为j的背包，价值总和最大是多少。2、确定递推公式依然拿dp[1][4]的状态来举例：求取dp[1][4]有两种情况：放物品1还是不放物品1如果不放物品1，那么背包的价值应该是dp[0][4]即容量为4的背包，只放物品0的情况。如果放物品1，那么背包要先留出物品1的容量，目前容量
Golang | 每日一练 (6) 张胤尘 Golang 每日一练 golang 后端面试
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录Golang|每日一练(6)题目参考答案什么是内存逃逸？内存逃逸对程序有什么样的影响？如何避免？Golang|每日一练(6)题目什么是内存逃逸？内存逃逸对程序有什么样的影响？如何避免？参考答案什么是内存逃逸？内存逃逸是指在函数内部创建的变量或对象，在函数结束后仍然被其他部分引
C#抖音无水印视频地址解析 longsky .net c#视频处理
实现最简单的半手工方式获取抖音无水印视频地址。纯C#代码，无任何第三方控件，一看就会，很简单。主要代码来自于https://blog.csdn.net/qq_15555767博主。他的这篇博文写的很清楚明白。https://blog.csdn.net/qq_15555767/article/details/108997122?utm_medium=distribute.pc_relevant_do
go clickhouse query leijmdas golang clickhouse 开发语言
在Go中使用clickhouse-go查询ClickHouse数据库非常简单。以下是一个完整的示例，展示如何连接ClickHouse并执行查询操作。1.安装依赖首先，安装clickhouse-go：bash复制goget-ugithub.com/ClickHouse/clickhouse-go/v22.示例代码以下是一个完整的示例，展示如何连接ClickHouse并执行查询操作。go复制packa
Qwen2-Audio：通义千问音频大模型技术解读 kakaZhui 音视频 AIGC 人工智能 python chatgpt
引言：从llm到mlm（audio）大型语言模型（LLM）的发展日新月异，它们在文本理解、生成、推理等方面展现出惊人的能力。然而，交互模态不仅仅依赖于文字，语音、语调、环境音等听觉信息同样承载着丰富的内容。阿里巴巴通义千问团队，推出了Qwen-Audio系列模型，这里我们一起看下最新版本Qwen2-Audio。Qwen2-Audio不仅能够理解各种音频信号，还能根据语音指令做出文本回应，甚至可以进
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
Go操作MySQL 可能只会写BUG golang mysql golang mysql 开发语言
Go操作MySQL类别:Golang数据库操作连接Go语言中的database/sql包提供了保证SQL或类SQL数据库的泛用接口，并不提供具体的数据库驱动。使用database/sql包时必须注入（至少）一个数据库驱动。我们常用的数据库基本上都有完整的第三方实现。例如：MySQL驱动下载依赖goget-ugithub.com/go-sql-driver/mysql使用MySQL驱动funcOpe
【愚公系列】《高效使用DeepSeek》020-专业术语解释愚公搬代码愚公系列-书籍专栏人工智能 AI Agent deepseek 学习
【技术大咖愚公搬代码：全栈专家的成长之路，你关注的宝藏博主在这里！】开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主！江湖人称"愚公搬代码"，用七年如一日的精神深耕技术领域，以"挖山不止"的毅力为开发者们搬开知识道路上的重重阻碍！【行业认证·权威头衔】✔华为云天团核心成员：特约编辑/云享专家/开发者专家/产品云测专家✔开发者社区全满贯：CSDN博客&商业化双料
Servlet NGC2237999 servlet
JavaSE与JavaEEJavaSE（StandardEdition）和JavaEE（EnterpriseEdition）是Java平台的两个主要版本，它们各自有不同的用途和功能。JavaSE（标准版）定义：JavaSE是Java的标准基础版，提供了核心功能和库，用于开发一般的应用程序，如桌面应用和小型工具。主要特性：包含Java语言的基本语法和标准库（如集合框架、IO操作、网络编程等）。适合开
网络安全漏洞与修复网络安全软件漏洞 Hacker_Nightrain web安全安全网络
文章目录一、软件漏洞的概念1、信息安全漏洞简述2、软件漏洞3、软件漏洞概念4、软件漏洞的成因分析二、软件漏洞标准化管理1、软件漏洞分类2、软件漏洞分级3、安全漏洞管理规范一、软件漏洞的概念1、信息安全漏洞简述信息安全漏洞是信息安风险的主要根源之一，是网络攻防对抗中的主要目标。由于信息系统漏洞的危害性、多样性和广泛性，在当前网路空间博弈中，漏洞作为一种战略资源被各方所积极关注。对于信息安全漏洞的不同
iOS发布app到App Store教程 Cloudox_ iOS 拾遗iOS之海 iOS 发布App 发布证书 App Store
要发布首先需要发布证书，其获取和安装的基本流程和真机调试证书一致，关于真机调试证书的获取和使用可以参考这篇文章。不过现在Xcode7不需要真机调试证书也可实现真机调试了，可以参考这篇文章。要获取证书，以及发布app，都需要开发者账号，开发者账号分为个人和企业两种，在https://developer.apple.com/programs/这个网站注册。关于申请开发者账号，有时间再写一篇文章好啦。获
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现

你可能感兴趣的:(概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现)