dy01dy

LDA Gibbs Sampling 的JAVA实现

原文地址：http://blog.csdn.net/yangliuy/article/details/8457329

本系列博文介绍常见概率语言模型及其变形模型，主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下

第一篇：PLSA及EM算法

第二篇：LDA及Gibbs Samping

第三篇：LDA变形模型-Twitter LDA，TimeUserLDA，ATM，Labeled-LDA，MaxEnt-LDA等

第四篇：基于变形LDA的paper分类总结（bibliography）

第五篇：LDA Gibbs Sampling 的JAVA实现

第五篇 LDA Gibbs Sampling的JAVA 实现

在本系列博文的前两篇，我们系统介绍了PLSA, LDA以及它们的参数Inference 方法，重点分析了模型表示和公式推导部分。曾有位学者说，“做研究要顶天立地”，意思是说做研究空有模型和理论还不够，我们还得有扎实的程序code和真实数据的实验结果来作为支撑。本文就重点分析 LDA Gibbs Sampling的JAVA 实现，并给出apply到newsgroup18828新闻文档集上得出的Topic建模结果。

本项目Github地址 https://github.com/yangliuy/LDAGibbsSampling

1、文档集预处理

要用LDA对文本进行topic建模，首先要对文本进行预处理，包括token，去停用词，stem，去noise词，去掉低频词等等。当语料库比较大时，我们也可以不进行stem。然后将文本转换成term的index表示形式，因为后面实现LDA的过程中经常需要在term和index之间进行映射。Documents类的实现如下，里面定义了Document内部类，用于描述文本集合中的文档。

[java]  view plain copy 
      
     
 package liuyang.nlp.lda.main;  
   
 import java.io.File;  
 import java.util.ArrayList;  
 import java.util.HashMap;  
 import java.util.Map;  
 import java.util.regex.Matcher;  
 import java.util.regex.Pattern;  
   
 import liuyang.nlp.lda.com.FileUtil;  
 import liuyang.nlp.lda.com.Stopwords;  
   
 /**Class for corpus which consists of M documents 
  * @author yangliu 
  * @blog http://blog.csdn.net/yangliuy 
  * @mail [email protected] 
  */  
   
 public class Documents {  
       
     ArrayList docs;   
     Map termToIndexMap;  
     ArrayList indexToTermMap;  
     Map termCountMap;  
       
     public Documents(){  
         docs = new ArrayList();  
         termToIndexMap = new HashMap();  
         indexToTermMap = new ArrayList();  
         termCountMap = new HashMap();  
     }  
       
     public void readDocs(String docsPath){  
         for(File docFile : new File(docsPath).listFiles()){  
             Document doc = new Document(docFile.getAbsolutePath(), termToIndexMap, indexToTermMap, termCountMap);  
             docs.add(doc);  
         }  
     }  
       
     public static class Document {    
         private String docName;  
         int[] docWords;  
           
         public Document(String docName, Map termToIndexMap, ArrayList indexToTermMap, Map termCountMap){  
             this.docName = docName;  
             //Read file and initialize word index array  
             ArrayList docLines = new ArrayList();  
             ArrayList words = new ArrayList();  
             FileUtil.readLines(docName, docLines);  
             for(String line : docLines){  
                 FileUtil.tokenizeAndLowerCase(line, words);  
             }  
             //Remove stop words and noise words  
             for(int i = 0; i < words.size(); i++){  
                 if(Stopwords.isStopword(words.get(i)) || isNoiseWord(words.get(i))){  
                     words.remove(i);  
                     i--;  
                 }  
             }  
             //Transfer word to index  
             this.docWords = new int[words.size()];  
             for(int i = 0; i < words.size(); i++){  
                 String word = words.get(i);  
                 if(!termToIndexMap.containsKey(word)){  
                     int newIndex = termToIndexMap.size();  
                     termToIndexMap.put(word, newIndex);  
                     indexToTermMap.add(word);  
                     termCountMap.put(word, new Integer(1));  
                     docWords[i] = newIndex;  
                 } else {  
                     docWords[i] = termToIndexMap.get(word);  
                     termCountMap.put(word, termCountMap.get(word) + 1);  
                 }  
             }  
             words.clear();  
         }  
           
         public boolean isNoiseWord(String string) {  
             // TODO Auto-generated method stub  
             string = string.toLowerCase().trim();  
             Pattern MY_PATTERN = Pattern.compile(".*[a-zA-Z]+.*");  
             Matcher m = MY_PATTERN.matcher(string);  
             // filter @xxx and URL  
             if(string.matches(".*www\\..*") || string.matches(".*\\.com.*") ||   
                     string.matches(".*http:.*") )  
                 return true;  
             if (!m.matches()) {  
                 return true;  
             } else  
                 return false;  
         }  
           
     }  
 }  

2 LDA Gibbs Sampling

文本预处理完毕后我们就可以实现LDA Gibbs Sampling。首先我们要定义需要的参数，我的实现中在程序中给出了参数默认值，同时也支持配置文件覆盖，程序默认优先选用配置文件的参数设置。整个算法流程包括模型初始化，迭代Inference，不断更新主题和待估计参数，最后输出收敛时的参数估计结果。

包含主函数的配置参数解析类如下：

[java]  view plain copy 
      
     
 package liuyang.nlp.lda.main;  
   
 import java.io.File;  
 import java.io.IOException;  
 import java.util.ArrayList;  
   
 import liuyang.nlp.lda.com.FileUtil;  
 import liuyang.nlp.lda.conf.ConstantConfig;  
 import liuyang.nlp.lda.conf.PathConfig;  
   
 /**Liu Yang's implementation of Gibbs Sampling of LDA 
  * @author yangliu 
  * @blog http://blog.csdn.net/yangliuy 
  * @mail [email protected] 
  */  
   
 public class LdaGibbsSampling {  
       
     public static class modelparameters {  
         float alpha = 0.5f; //usual value is 50 / K  
         float beta = 0.1f;//usual value is 0.1  
         int topicNum = 100;  
         int iteration = 100;  
         int saveStep = 10;  
         int beginSaveIters = 50;  
     }  
       
     /**Get parameters from configuring file. If the  
      * configuring file has value in it, use the value. 
      * Else the default value in program will be used 
      * @param ldaparameters 
      * @param parameterFile 
      * @return void 
      */  
     private static void getParametersFromFile(modelparameters ldaparameters,  
             String parameterFile) {  
         // TODO Auto-generated method stub  
         ArrayList paramLines = new ArrayList();  
         FileUtil.readLines(parameterFile, paramLines);  
         for(String line : paramLines){  
             String[] lineParts = line.split("\t");  
             switch(parameters.valueOf(lineParts[0])){  
             case alpha:  
                 ldaparameters.alpha = Float.valueOf(lineParts[1]);  
                 break;  
             case beta:  
                 ldaparameters.beta = Float.valueOf(lineParts[1]);  
                 break;  
             case topicNum:  
                 ldaparameters.topicNum = Integer.valueOf(lineParts[1]);  
                 break;  
             case iteration:  
                 ldaparameters.iteration = Integer.valueOf(lineParts[1]);  
                 break;  
             case saveStep:  
                 ldaparameters.saveStep = Integer.valueOf(lineParts[1]);  
                 break;  
             case beginSaveIters:  
                 ldaparameters.beginSaveIters = Integer.valueOf(lineParts[1]);  
                 break;  
             }  
         }  
     }  
       
     public enum parameters{  
         alpha, beta, topicNum, iteration, saveStep, beginSaveIters;  
     }  
       
     /** 
      * @param args 
      * @throws IOException  
      */  
     public static void main(String[] args) throws IOException {  
         // TODO Auto-generated method stub  
         String originalDocsPath = PathConfig.ldaDocsPath;  
         String resultPath = PathConfig.LdaResultsPath;  
         String parameterFile= ConstantConfig.LDAPARAMETERFILE;  
           
         modelparameters ldaparameters = new modelparameters();  
         getParametersFromFile(ldaparameters, parameterFile);  
         Documents docSet = new Documents();  
         docSet.readDocs(originalDocsPath);  
         System.out.println("wordMap size " + docSet.termToIndexMap.size());  
         FileUtil.mkdir(new File(resultPath));  
         LdaModel model = new LdaModel(ldaparameters);  
         System.out.println("1 Initialize the model ...");  
         model.initializeModel(docSet);  
         System.out.println("2 Learning and Saving the model ...");  
         model.inferenceModel(docSet);  
         System.out.println("3 Output the final model ...");  
         model.saveIteratedModel(ldaparameters.iteration, docSet);  
         System.out.println("Done!");  
     }  
 }  

LDA 模型实现类如下

[java]  view plain copy 
      
     
 package liuyang.nlp.lda.main;  
   
 /**Class for Lda model 
  * @author yangliu 
  * @blog http://blog.csdn.net/yangliuy 
  * @mail [email protected] 
  */  
 import java.io.BufferedWriter;  
 import java.io.FileWriter;  
 import java.io.IOException;  
 import java.util.ArrayList;  
 import java.util.Collections;  
 import java.util.Comparator;  
 import java.util.List;  
   
 import liuyang.nlp.lda.com.FileUtil;  
 import liuyang.nlp.lda.conf.PathConfig;  
   
 public class LdaModel {  
       
     int [][] doc;//word index array  
     int V, K, M;//vocabulary size, topic number, document number  
     int [][] z;//topic label array  
     float alpha; //doc-topic dirichlet prior parameter   
     float beta; //topic-word dirichlet prior parameter  
     int [][] nmk;//given document m, count times of topic k. M*K  
     int [][] nkt;//given topic k, count times of term t. K*V  
     int [] nmkSum;//Sum for each row in nmk  
     int [] nktSum;//Sum for each row in nkt  
     double [][] phi;//Parameters for topic-word distribution K*V  
     double [][] theta;//Parameters for doc-topic distribution M*K  
     int iterations;//Times of iterations  
     int saveStep;//The number of iterations between two saving  
     int beginSaveIters;//Begin save model at this iteration  
       
     public LdaModel(LdaGibbsSampling.modelparameters modelparam) {  
         // TODO Auto-generated constructor stub  
         alpha = modelparam.alpha;  
         beta = modelparam.beta;  
         iterations = modelparam.iteration;  
         K = modelparam.topicNum;  
         saveStep = modelparam.saveStep;  
         beginSaveIters = modelparam.beginSaveIters;  
     }  
   
     public void initializeModel(Documents docSet) {  
         // TODO Auto-generated method stub  
         M = docSet.docs.size();  
         V = docSet.termToIndexMap.size();  
         nmk = new int [M][K];  
         nkt = new int[K][V];  
         nmkSum = new int[M];  
         nktSum = new int[K];  
         phi = new double[K][V];  
         theta = new double[M][K];  
           
         //initialize documents index array  
         doc = new int[M][];  
         for(int m = 0; m < M; m++){  
             //Notice the limit of memory  
             int N = docSet.docs.get(m).docWords.length;  
             doc[m] = new int[N];  
             for(int n = 0; n < N; n++){  
                 doc[m][n] = docSet.docs.get(m).docWords[n];  
             }  
         }  
           
         //initialize topic lable z for each word  
         z = new int[M][];  
         for(int m = 0; m < M; m++){  
             int N = docSet.docs.get(m).docWords.length;  
             z[m] = new int[N];  
             for(int n = 0; n < N; n++){  
                 int initTopic = (int)(Math.random() * K);// From 0 to K - 1  
                 z[m][n] = initTopic;  
                 //number of words in doc m assigned to topic initTopic add 1  
                 nmk[m][initTopic]++;  
                 //number of terms doc[m][n] assigned to topic initTopic add 1  
                 nkt[initTopic][doc[m][n]]++;  
                 // total number of words assigned to topic initTopic add 1  
                 nktSum[initTopic]++;  
             }  
              // total number of words in document m is N  
             nmkSum[m] = N;  
         }  
     }  
   
     public void inferenceModel(Documents docSet) throws IOException {  
         // TODO Auto-generated method stub  
         if(iterations < saveStep + beginSaveIters){  
             System.err.println("Error: the number of iterations should be larger than " + (saveStep + beginSaveIters));  
             System.exit(0);  
         }  
         for(int i = 0; i < iterations; i++){  
             System.out.println("Iteration " + i);  
             if((i >= beginSaveIters) && (((i - beginSaveIters) % saveStep) == 0)){  
                 //Saving the model  
                 System.out.println("Saving model at iteration " + i +" ... ");  
                 //Firstly update parameters  
                 updateEstimatedParameters();  
                 //Secondly print model variables  
                 saveIteratedModel(i, docSet);  
             }  
               
             //Use Gibbs Sampling to update z[][]  
             for(int m = 0; m < M; m++){  
                 int N = docSet.docs.get(m).docWords.length;  
                 for(int n = 0; n < N; n++){  
                     // Sample from p(z_i|z_-i, w)  
                     int newTopic = sampleTopicZ(m, n);  
                     z[m][n] = newTopic;  
                 }  
             }  
         }  
     }  
       
     private void updateEstimatedParameters() {  
         // TODO Auto-generated method stub  
         for(int k = 0; k < K; k++){  
             for(int t = 0; t < V; t++){  
                 phi[k][t] = (nkt[k][t] + beta) / (nktSum[k] + V * beta);  
             }  
         }  
           
         for(int m = 0; m < M; m++){  
             for(int k = 0; k < K; k++){  
                 theta[m][k] = (nmk[m][k] + alpha) / (nmkSum[m] + K * alpha);  
             }  
         }  
     }  
   
     private int sampleTopicZ(int m, int n) {  
         // TODO Auto-generated method stub  
         // Sample from p(z_i|z_-i, w) using Gibbs upde rule  
           
         //Remove topic label for w_{m,n}  
         int oldTopic = z[m][n];  
         nmk[m][oldTopic]--;  
         nkt[oldTopic][doc[m][n]]--;  
         nmkSum[m]--;  
         nktSum[oldTopic]--;  
           
         //Compute p(z_i = k|z_-i, w)  
         double [] p = new double[K];  
         for(int k = 0; k < K; k++){  
             p[k] = (nkt[k][doc[m][n]] + beta) / (nktSum[k] + V * beta) * (nmk[m][k] + alpha) / (nmkSum[m] + K * alpha);  
         }  
           
         //Sample a new topic label for w_{m, n} like roulette  
         //Compute cumulated probability for p  
         for(int k = 1; k < K; k++){  
             p[k] += p[k - 1];  
         }  
         double u = Math.random() * p[K - 1]; //p[] is unnormalised  
         int newTopic;  
         for(newTopic = 0; newTopic < K; newTopic++){  
             if(u < p[newTopic]){  
                 break;  
             }  
         }  
           
         //Add new topic label for w_{m, n}  
         nmk[m][newTopic]++;  
         nkt[newTopic][doc[m][n]]++;  
         nmkSum[m]++;  
         nktSum[newTopic]++;  
         return newTopic;  
     }  
   
     public void saveIteratedModel(int iters, Documents docSet) throws IOException {  
         // TODO Auto-generated method stub  
         //lda.params lda.phi lda.theta lda.tassign lda.twords  
         //lda.params  
         String resPath = PathConfig.LdaResultsPath;  
         String modelName = "lda_" + iters;  
         ArrayList lines = new ArrayList();  
         lines.add("alpha = " + alpha);  
         lines.add("beta = " + beta);  
         lines.add("topicNum = " + K);  
         lines.add("docNum = " + M);  
         lines.add("termNum = " + V);  
         lines.add("iterations = " + iterations);  
         lines.add("saveStep = " + saveStep);  
         lines.add("beginSaveIters = " + beginSaveIters);  
         FileUtil.writeLines(resPath + modelName + ".params", lines);  
           
         //lda.phi K*V  
         BufferedWriter writer = new BufferedWriter(new FileWriter(resPath + modelName + ".phi"));         
         for (int i = 0; i < K; i++){  
             for (int j = 0; j < V; j++){  
                 writer.write(phi[i][j] + "\t");  
             }  
             writer.write("\n");  
         }  
         writer.close();  
           
         //lda.theta M*K  
         writer = new BufferedWriter(new FileWriter(resPath + modelName + ".theta"));  
         for(int i = 0; i < M; i++){  
             for(int j = 0; j < K; j++){  
                 writer.write(theta[i][j] + "\t");  
             }  
             writer.write("\n");  
         }  
         writer.close();  
           
         //lda.tassign  
         writer = new BufferedWriter(new FileWriter(resPath + modelName + ".tassign"));  
         for(int m = 0; m < M; m++){  
             for(int n = 0; n < doc[m].length; n++){  
                 writer.write(doc[m][n] + ":" + z[m][n] + "\t");  
             }  
             writer.write("\n");  
         }  
         writer.close();  
           
         //lda.twords phi[][] K*V  
         writer = new BufferedWriter(new FileWriter(resPath + modelName + ".twords"));  
         int topNum = 20; //Find the top 20 topic words in each topic  
         for(int i = 0; i < K; i++){  
             List tWordsIndexArray = new ArrayList();   
             for(int j = 0; j < V; j++){  
                 tWordsIndexArray.add(new Integer(j));  
             }  
             Collections.sort(tWordsIndexArray, new LdaModel.TwordsComparable(phi[i]));  
             writer.write("topic " + i + "\t:\t");  
             for(int t = 0; t < topNum; t++){  
                 writer.write(docSet.indexToTermMap.get(tWordsIndexArray.get(t)) + " " + phi[i][tWordsIndexArray.get(t)] + "\t");  
             }  
             writer.write("\n");  
         }  
         writer.close();  
     }  
       
     public class TwordsComparable implements Comparator {  
           
         public double [] sortProb; // Store probability of each word in topic k  
           
         public TwordsComparable (double[] sortProb){  
             this.sortProb = sortProb;  
         }  
   
         @Override  
         public int compare(Integer o1, Integer o2) {  
             // TODO Auto-generated method stub  
             //Sort topic word index according to the probability of each word in topic k  
             if(sortProb[o1] > sortProb[o2]) return -1;  
             else if(sortProb[o1] < sortProb[o2]) return 1;  
             else return 0;  
         }  
     }  
 }  

程序的实现细节可以参考我在程序中给出的注释，如果理解LDA Gibbs Sampling的算法流程，上面的代码很好理解。其实排除输入输出和参数解析的代码，标准LDA 的Gibbs sampling只需要不到200行程序就可以搞定。当然，里面有很多可以考虑优化和变形的地方。

还有com和conf目录下的源文件分别放置常用函数和配置类，完整的JAVA工程见Github https://github.com/yangliuy/LDAGibbsSampling

3 用LDA Gibbs Sampling对Newsgroup 18828文档集进行主题分析

下面我们给出将上面的LDA Gibbs Sampling的实现Apply到Newsgroup 18828文档集进行主题分析的结果。我实验时用到的数据已经上传到Github中，感兴趣的朋友可以直接从Github中下载工程运行。我在Newsgroup 18828文档集随机选择了9个目录，每个目录下选择一个文档，将它们放置在data\LdaOriginalDocs目录下，我设定的模型参数如下

[plain]  view plain copy 
      
     
 alpha   0.5  
 beta    0.1  
 topicNum    10  
 iteration   100  
 saveStep    10  
 beginSaveIters  80  

即设定alpha和beta的值为0.5和0.1， Topic数目为10，迭代100次，从第80次开始保存模型结果，每10次保存一次。

经过100次Gibbs Sampling迭代后，程序输出10个Topic下top的topic words以及对应的概率值如下

我们可以看到虽然是unsupervised learning, LDA分析出来的Topic words还是非常make sense的。比如第5个topic是宗教类的，第6个topic是天文类的，第7个topic是计算机类的。程序的输出还包括模型参数.param文件，topic-word分布phi向量.phi文件，doc-topic分布theta向量.theta文件以及每个文档中每个单词分配到的主题label的.tassign文件。感兴趣的朋友可以从Github https://github.com/yangliuy/LDAGibbsSampling 下载完整工程自己换用其他数据集进行主题分析实验。本程序是初步实现版本，如果大家发现任何问题或者bug欢迎交流，我第一时间在Github修复bug更新版本。

4 参考文献

[1] Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[2] Gregor Heinrich. Parameter estimation for text analysis. Technical report, 2004.
[3] Wang Yi. Distributed Gibbs Sampling of Latent Topic Models: The Gritty Details Technical report, 2005.

[4] Wayne Xin Zhao, Note for pLSA and LDA, Technical report, 2011.

[5] Freddy Chong Tat Chua. Dimensionality reduction and clustering of text documents.Technical report, 2009.

[6] Jgibblda, http://jgibblda.sourceforge.net/

[7]David M. Blei, Andrew Y. Ng, and Michael I. Jordan. 2003. Latent dirichlet allocation. J. Mach. Learn. Res. 3 (March 2003), 993-1022.

【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
数据安全审计平台的三大关键技术：日志分析、行为监测与智能告警 KKKlucifer 安全算法
在数字化浪潮中，数据安全审计是企业守护核心资产的“瞭望塔”。通过日志分析、行为监测、智能告警三大技术，数据安全审计平台构建起“全流程监控-异常识别-快速响应”的闭环，为数据安全筑牢防线。以下从技术原理、实践价值与行业应用展开解析。日志分析：数据安全的“DNA图谱”1.多源日志融合技术实现：通过Agent采集操作系统、数据库、网络设备等200+日志源，利用正则表达式、NLP技术解析非结构化日志（如“
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
VIT视觉妄想成为master opencv 目标检测机器学习数据挖掘语音识别人工智能计算机视觉
VisionTransformer视觉和语言(Vision-Language)NLPrompt:Noise-LabelPromptLearningforVision-LanguageModelsPaper:https://arxiv.org/abs/2412.01256Code:GitHub-qunovo/NLPromptPhysVLM:EnablingVisualLanguageModelsto
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
中文大模型的技术债问题大鹏的NLP博客大模型 transformer 大模型
中文大模型的技术债问题摘要随着中文大语言模型（LargeLanguageModels,LLMs）在自然语言处理（NLP）领域的广泛应用，其研发和部署过程中积累的“技术债”（TechnicalDebt）问题日益突出。本文系统性地分析了中文大模型在数据采集、预训练、微调、评估与部署等生命周期各阶段产生的技术债类型，包括代码复杂性、数据隐患、训练流程依赖、工具链碎片化、模型解释性差、隐性资源耦合等问题，
AI 正在深度重构软件开发的底层逻辑和全生命周期，从技术演进、流程重构和未来趋势三个维度进行系统性分析
AI正在深度重构软件开发的底层逻辑和全生命周期，从需求分析到运维维护的每个环节都产生了范式级变革。以下从技术演进、流程重构和未来趋势三个维度进行系统性分析：一、AI重构软件开发全栈的技术图谱需求工程智能化NLP驱动的需求解析：GPT-4架构实现用户访谈转录自动转化为UML用例图，准确率达89%（微软2023内部数据）情感计算应用：基于BERT的意图识别模型可捕捉用户需求中的隐性情绪，需求变更预测准
新手向:中文语言识别的进化之路
自然语言处理（NLP）技术正在以前所未有的速度改变我们与机器的交互方式，而中文作为世界上使用人数最多的语言，其处理技术面临着独特的挑战与机遇。本文将全面剖析中文自然语言识别模型的发展历程、核心技术原理、当前应用现状以及未来发展趋势，带您深入了解这一改变人机交互方式的关键技术。一、中文NLP的特殊挑战：为什么中文处理如此困难？中文自然语言处理面临着一系列西方语言所不具备的特殊挑战，这些挑战直接影响了
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
自然语言处理-基于预训练模型的方法-笔记
自然语言处理-基于预训练模型的方法-笔记【下载地址】自然语言处理-基于预训练模型的方法-笔记《自然语言处理-基于预训练模型的方法》由哈尔滨工业大学出版，深入探讨了NLP领域的前沿技术与预训练模型的应用。本书系统介绍了预训练模型的基本概念、发展历程及常见模型的原理，并通过丰富的实践案例与代码实现，帮助读者掌握这些技术在自然语言处理任务中的实际应用。无论是初学者、研发人员，还是希望提升NLP能力的研究
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
Longformer: The Long-Document Transformer（2020-4-10）不负韶华ღ 深度学习（NLP）transformer 深度学习人工智能
模型介绍目前基于Transformer的预训练模型在各项NLP任务纷纷取得更好的效果，这些成功的部分原因在于Self-Attention机制，它运行模型能够快速便捷地从整个文本序列中捕获重要信息。然而传统的Self-Attention机制的时空复杂度与文本的序列长度呈平方的关系，这在很大程度上限制了模型的输入不能太长，因此需要将过长的文档进行截断传入模型进行处理，例如BERT中能够接受的最大序列长
搜索架构中的NLP技术：提升搜索准确性的关键搜索引擎技术架构自然语言处理人工智能 ai
搜索架构中的NLP技术：提升搜索准确性的关键关键词：搜索架构、NLP技术、查询理解、语义搜索、相关性排序、意图识别、BERT模型摘要：本文将深入探讨现代搜索架构中NLP技术的核心应用，从查询理解到结果排序的全流程，揭示NLP如何提升搜索准确性。我们将通过生动的比喻解释复杂概念，分析关键技术原理，并提供实际代码示例，帮助读者全面理解搜索系统背后的NLP魔法。背景介绍目的和范围本文旨在解析NLP技术在
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
RNN案例人名分类器（完整步骤） AI扶我青云志 rnn 人工智能深度学习 nlp lstm gru
今天给大家分享一个NLP（自然语言处理）中的一个小案例，本案例讲解了RNN、LSTM、GRU模型是如何使用并进行预测的，一、案例架构人名分类器的实现可分为以下五个步骤:第一步:导入必备的工具包第二步:对data文件中的数据进行处理，满足训练要求第三步:构建RNN模型(包括传统RNN,LSTM以及GRU)第四步:构建训练函数并进行训练五步第:构建评估函数并进行预测二、实现步骤1.导包#导入torch
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
【AI】大语言模型（LLM）& NLP G皮T #大语言模型 LLM NLP 大模型大语言模型 AI 人工智能
大语言模型（LLM）&NLP1.大语言模型（LLM）1.1一句话解释1.2更形象的比喻1.3为什么叫“大”模型1.4它能做什么1.5现实中的例子2.对比NLP2.1用“汽车进化”比喻NLP→LLM2.2为什么说LLM属于NLP2.3LLM的“革命性突破”在哪里2.4总结1.大语言模型（LLM）1.1一句话解释大语言模型（LargeLanguageModel，LLM）是一个“超级文字预测器”，它通过
使用Python爬虫与自然语言处理技术抓取并分析网页内容 Python爬虫项目 python 爬虫自然语言处理 javascript 数据分析人工智能
1.引言在如今数据驱动的时代，网页爬虫（WebScraping）和自然语言处理（NLP）已成为处理大量网页数据的重要工具。利用Python爬虫抓取网页内容，结合NLP技术进行文本分析和信息抽取，能够从大量网页中提取有价值的信息。无论是新闻文章的情感分析、社交媒体的舆情分析，还是电商网站的商品评论挖掘，这些技术都发挥着至关重要的作用。本文将介绍如何利用Python爬虫与自然语言处理技术抓取并分析网页
计算机视觉中的Transformer：ViT模型详解与代码实现 AI大模型应用工坊计算机视觉 transformer 人工智能 ai
计算机视觉中的Transformer：ViT模型详解与代码实现关键词：计算机视觉、Transformer、ViT、自注意力机制、图像分块摘要：传统卷积神经网络（CNN）统治计算机视觉领域多年，但2020年一篇《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》的论文打破了这一格局——它将NLP领域的Transformer
AI 加持下的智能家居行业：变革、挑战与机遇低代码老李人工智能智能家居
在当今科技迅猛发展的浪潮中，人工智能（AI）已深深融入智能家居领域，成为推动其蓬勃发展的关键力量，为人们的生活带来了诸多便利和创新体验，同时也面临着一系列亟待解决的问题。一、AI驱动的智能家居功能升级（1）智能语音交互与控制智能语音助手作为智能家居的核心交互方式，借助自然语言处理（NLP）技术，让用户仅通过简单的语音指令，就能轻松操控家中各类智能设备，如精准控制灯光的开关与亮度调节、窗帘的开合、电
NLTK库全解析：用Python打开自然语言处理的第一把钥匙
引言你是否好奇过，手机里的智能助手是如何“听懂”你说的话？电商平台的差评分析又是怎样精准提取“物流慢”“质量差”这些关键词？这些看似神奇的自然语言处理（NLP）功能，背后都藏着一个“入门神器”——NLTK（NaturalLanguageToolkit）。作为Python生态中最经典的NLP库，NLTK就像一本“NLP百科全书”，从最基础的文本拆分到复杂的语义理解，它用简单的代码接口，带我们推开自然
Python 爬虫实战：微博话题讨论数趋势爬取与分析全流程西攻城狮北 python 爬虫开发语言
1.项目背景与目标微博话题（#话题#）是社交媒体舆情监测、品牌营销、热点追踪的重要数据源。本实战要完成以下目标：爬取指定话题在7天内的讨论数、阅读量、热搜排名等关键指标。将数据存入MySQL，并每日增量更新。用Pandas+Matplotlib绘制趋势图，直观呈现热度变化。基于SnowNLP做情感倾向分析，输出正面/负面占比。生成一份可分享的HTML可视化报告。2.环境搭建与依赖2.1安装核心库p
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

LDA Gibbs Sampling 的JAVA实现

你可能感兴趣的:(NLP)