yangliuy

[置顶] 概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现

本系列博文介绍常见概率语言模型及其变形模型，主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下

第一篇：PLSA及EM算法

第二篇：LDA及Gibbs Samping

第三篇：LDA变形模型-Twitter LDA，TimeUserLDA，ATM，Labeled-LDA，MaxEnt-LDA等

第四篇：基于变形LDA的paper分类总结（bibliography）

第五篇：LDA Gibbs Sampling 的JAVA实现

第五篇 LDA Gibbs Sampling的JAVA 实现

在本系列博文的前两篇，我们系统介绍了PLSA, LDA以及它们的参数Inference 方法，重点分析了模型表示和公式推导部分。曾有位学者说，“做研究要顶天立地”，意思是说做研究空有模型和理论还不够，我们还得有扎实的程序code和真实数据的实验结果来作为支撑。本文就重点分析 LDA Gibbs Sampling的JAVA 实现，并给出apply到newsgroup18828新闻文档集上得出的Topic建模结果。

本项目Github地址 https://github.com/yangliuy/LDAGibbsSampling

1、文档集预处理

要用LDA对文本进行topic建模，首先要对文本进行预处理，包括token，去停用词，stem，去noise词，去掉低频词等等。当语料库比较大时，我们也可以不进行stem。然后将文本转换成term的index表示形式，因为后面实现LDA的过程中经常需要在term和index之间进行映射。Documents类的实现如下，里面定义了Document内部类，用于描述文本集合中的文档。

package liuyang.nlp.lda.main;

import java.io.File;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import liuyang.nlp.lda.com.FileUtil;
import liuyang.nlp.lda.com.Stopwords;

/**Class for corpus which consists of M documents
 * @author yangliu
 * @blog http://blog.csdn.net/yangliuy
 * @mail yangliuyx@gmail.com
 */

public class Documents {
	
	ArrayList<Document> docs; 
	Map<String, Integer> termToIndexMap;
	ArrayList<String> indexToTermMap;
	Map<String,Integer> termCountMap;
	
	public Documents(){
		docs = new ArrayList<Document>();
		termToIndexMap = new HashMap<String, Integer>();
		indexToTermMap = new ArrayList<String>();
		termCountMap = new HashMap<String, Integer>();
	}
	
	public void readDocs(String docsPath){
		for(File docFile : new File(docsPath).listFiles()){
			Document doc = new Document(docFile.getAbsolutePath(), termToIndexMap, indexToTermMap, termCountMap);
			docs.add(doc);
		}
	}
	
	public static class Document {	
		private String docName;
		int[] docWords;
		
		public Document(String docName, Map<String, Integer> termToIndexMap, ArrayList<String> indexToTermMap, Map<String, Integer> termCountMap){
			this.docName = docName;
			//Read file and initialize word index array
			ArrayList<String> docLines = new ArrayList<String>();
			ArrayList<String> words = new ArrayList<String>();
			FileUtil.readLines(docName, docLines);
			for(String line : docLines){
				FileUtil.tokenizeAndLowerCase(line, words);
			}
			//Remove stop words and noise words
			for(int i = 0; i < words.size(); i++){
				if(Stopwords.isStopword(words.get(i)) || isNoiseWord(words.get(i))){
					words.remove(i);
					i--;
				}
			}
			//Transfer word to index
			this.docWords = new int[words.size()];
			for(int i = 0; i < words.size(); i++){
				String word = words.get(i);
				if(!termToIndexMap.containsKey(word)){
					int newIndex = termToIndexMap.size();
					termToIndexMap.put(word, newIndex);
					indexToTermMap.add(word);
					termCountMap.put(word, new Integer(1));
					docWords[i] = newIndex;
				} else {
					docWords[i] = termToIndexMap.get(word);
					termCountMap.put(word, termCountMap.get(word) + 1);
				}
			}
			words.clear();
		}
		
		public boolean isNoiseWord(String string) {
			// TODO Auto-generated method stub
			string = string.toLowerCase().trim();
			Pattern MY_PATTERN = Pattern.compile(".*[a-zA-Z]+.*");
			Matcher m = MY_PATTERN.matcher(string);
			// filter @xxx and URL
			if(string.matches(".*www\\..*") || string.matches(".*\\.com.*") || 
					string.matches(".*http:.*") )
				return true;
			if (!m.matches()) {
				return true;
			} else
				return false;
		}
		
	}
}

2 LDA Gibbs Sampling

文本预处理完毕后我们就可以实现LDA Gibbs Sampling。首先我们要定义需要的参数，我的实现中在程序中给出了参数默认值，同时也支持配置文件覆盖，程序默认优先选用配置文件的参数设置。整个算法流程包括模型初始化，迭代Inference，不断更新主题和待估计参数，最后输出收敛时的参数估计结果。

包含主函数的配置参数解析类如下：

package liuyang.nlp.lda.main;

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;

import liuyang.nlp.lda.com.FileUtil;
import liuyang.nlp.lda.conf.ConstantConfig;
import liuyang.nlp.lda.conf.PathConfig;

/**Liu Yang's implementation of Gibbs Sampling of LDA
 * @author yangliu
 * @blog http://blog.csdn.net/yangliuy
 * @mail yangliuyx@gmail.com
 */

public class LdaGibbsSampling {
	
	public static class modelparameters {
		float alpha = 0.5f; //usual value is 50 / K
		float beta = 0.1f;//usual value is 0.1
		int topicNum = 100;
		int iteration = 100;
		int saveStep = 10;
		int beginSaveIters = 50;
	}
	
	/**Get parameters from configuring file. If the 
	 * configuring file has value in it, use the value.
	 * Else the default value in program will be used
	 * @param ldaparameters
	 * @param parameterFile
	 * @return void
	 */
	private static void getParametersFromFile(modelparameters ldaparameters,
			String parameterFile) {
		// TODO Auto-generated method stub
		ArrayList<String> paramLines = new ArrayList<String>();
		FileUtil.readLines(parameterFile, paramLines);
		for(String line : paramLines){
			String[] lineParts = line.split("\t");
			switch(parameters.valueOf(lineParts[0])){
			case alpha:
				ldaparameters.alpha = Float.valueOf(lineParts[1]);
				break;
			case beta:
				ldaparameters.beta = Float.valueOf(lineParts[1]);
				break;
			case topicNum:
				ldaparameters.topicNum = Integer.valueOf(lineParts[1]);
				break;
			case iteration:
				ldaparameters.iteration = Integer.valueOf(lineParts[1]);
				break;
			case saveStep:
				ldaparameters.saveStep = Integer.valueOf(lineParts[1]);
				break;
			case beginSaveIters:
				ldaparameters.beginSaveIters = Integer.valueOf(lineParts[1]);
				break;
			}
		}
	}
	
	public enum parameters{
		alpha, beta, topicNum, iteration, saveStep, beginSaveIters;
	}
	
	/**
	 * @param args
	 * @throws IOException 
	 */
	public static void main(String[] args) throws IOException {
		// TODO Auto-generated method stub
		String originalDocsPath = PathConfig.ldaDocsPath;
		String resultPath = PathConfig.LdaResultsPath;
		String parameterFile= ConstantConfig.LDAPARAMETERFILE;
		
		modelparameters ldaparameters = new modelparameters();
		getParametersFromFile(ldaparameters, parameterFile);
		Documents docSet = new Documents();
		docSet.readDocs(originalDocsPath);
		System.out.println("wordMap size " + docSet.termToIndexMap.size());
		FileUtil.mkdir(new File(resultPath));
		LdaModel model = new LdaModel(ldaparameters);
		System.out.println("1 Initialize the model ...");
		model.initializeModel(docSet);
		System.out.println("2 Learning and Saving the model ...");
		model.inferenceModel(docSet);
		System.out.println("3 Output the final model ...");
		model.saveIteratedModel(ldaparameters.iteration, docSet);
		System.out.println("Done!");
	}
}

LDA 模型实现类如下

package liuyang.nlp.lda.main;

/**Class for Lda model
 * @author yangliu
 * @blog http://blog.csdn.net/yangliuy
 * @mail yangliuyx@gmail.com
 */
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List;

import liuyang.nlp.lda.com.FileUtil;
import liuyang.nlp.lda.conf.PathConfig;

public class LdaModel {
	
	int [][] doc;//word index array
	int V, K, M;//vocabulary size, topic number, document number
	int [][] z;//topic label array
	float alpha; //doc-topic dirichlet prior parameter 
	float beta; //topic-word dirichlet prior parameter
	int [][] nmk;//given document m, count times of topic k. M*K
	int [][] nkt;//given topic k, count times of term t. K*V
	int [] nmkSum;//Sum for each row in nmk
	int [] nktSum;//Sum for each row in nkt
	double [][] phi;//Parameters for topic-word distribution K*V
	double [][] theta;//Parameters for doc-topic distribution M*K
	int iterations;//Times of iterations
	int saveStep;//The number of iterations between two saving
	int beginSaveIters;//Begin save model at this iteration
	
	public LdaModel(LdaGibbsSampling.modelparameters modelparam) {
		// TODO Auto-generated constructor stub
		alpha = modelparam.alpha;
		beta = modelparam.beta;
		iterations = modelparam.iteration;
		K = modelparam.topicNum;
		saveStep = modelparam.saveStep;
		beginSaveIters = modelparam.beginSaveIters;
	}

	public void initializeModel(Documents docSet) {
		// TODO Auto-generated method stub
		M = docSet.docs.size();
		V = docSet.termToIndexMap.size();
		nmk = new int [M][K];
		nkt = new int[K][V];
		nmkSum = new int[M];
		nktSum = new int[K];
		phi = new double[K][V];
		theta = new double[M][K];
		
		//initialize documents index array
		doc = new int[M][];
		for(int m = 0; m < M; m++){
			//Notice the limit of memory
			int N = docSet.docs.get(m).docWords.length;
			doc[m] = new int[N];
			for(int n = 0; n < N; n++){
				doc[m][n] = docSet.docs.get(m).docWords[n];
			}
		}
		
		//initialize topic lable z for each word
		z = new int[M][];
		for(int m = 0; m < M; m++){
			int N = docSet.docs.get(m).docWords.length;
			z[m] = new int[N];
			for(int n = 0; n < N; n++){
				int initTopic = (int)(Math.random() * K);// From 0 to K - 1
				z[m][n] = initTopic;
				//number of words in doc m assigned to topic initTopic add 1
				nmk[m][initTopic]++;
				//number of terms doc[m][n] assigned to topic initTopic add 1
				nkt[initTopic][doc[m][n]]++;
				// total number of words assigned to topic initTopic add 1
				nktSum[initTopic]++;
			}
			 // total number of words in document m is N
			nmkSum[m] = N;
		}
	}

	public void inferenceModel(Documents docSet) throws IOException {
		// TODO Auto-generated method stub
		if(iterations < saveStep + beginSaveIters){
			System.err.println("Error: the number of iterations should be larger than " + (saveStep + beginSaveIters));
			System.exit(0);
		}
		for(int i = 0; i < iterations; i++){
			System.out.println("Iteration " + i);
			if((i >= beginSaveIters) && (((i - beginSaveIters) % saveStep) == 0)){
				//Saving the model
				System.out.println("Saving model at iteration " + i +" ... ");
				//Firstly update parameters
				updateEstimatedParameters();
				//Secondly print model variables
				saveIteratedModel(i, docSet);
			}
			
			//Use Gibbs Sampling to update z[][]
			for(int m = 0; m < M; m++){
				int N = docSet.docs.get(m).docWords.length;
				for(int n = 0; n < N; n++){
					// Sample from p(z_i|z_-i, w)
					int newTopic = sampleTopicZ(m, n);
					z[m][n] = newTopic;
				}
			}
		}
	}
	
	private void updateEstimatedParameters() {
		// TODO Auto-generated method stub
		for(int k = 0; k < K; k++){
			for(int t = 0; t < V; t++){
				phi[k][t] = (nkt[k][t] + beta) / (nktSum[k] + V * beta);
			}
		}
		
		for(int m = 0; m < M; m++){
			for(int k = 0; k < K; k++){
				theta[m][k] = (nmk[m][k] + alpha) / (nmkSum[m] + K * alpha);
			}
		}
	}

	private int sampleTopicZ(int m, int n) {
		// TODO Auto-generated method stub
		// Sample from p(z_i|z_-i, w) using Gibbs upde rule
		
		//Remove topic label for w_{m,n}
		int oldTopic = z[m][n];
		nmk[m][oldTopic]--;
		nkt[oldTopic][doc[m][n]]--;
		nmkSum[m]--;
		nktSum[oldTopic]--;
		
		//Compute p(z_i = k|z_-i, w)
		double [] p = new double[K];
		for(int k = 0; k < K; k++){
			p[k] = (nkt[k][doc[m][n]] + beta) / (nktSum[k] + V * beta) * (nmk[m][k] + alpha) / (nmkSum[m] + K * alpha);
		}
		
		//Sample a new topic label for w_{m, n} like roulette
		//Compute cumulated probability for p
		for(int k = 1; k < K; k++){
			p[k] += p[k - 1];
		}
		double u = Math.random() * p[K - 1]; //p[] is unnormalised
		int newTopic;
		for(newTopic = 0; newTopic < K; newTopic++){
			if(u < p[newTopic]){
				break;
			}
		}
		
		//Add new topic label for w_{m, n}
		nmk[m][newTopic]++;
		nkt[newTopic][doc[m][n]]++;
		nmkSum[m]++;
		nktSum[newTopic]++;
		return newTopic;
	}

	public void saveIteratedModel(int iters, Documents docSet) throws IOException {
		// TODO Auto-generated method stub
		//lda.params lda.phi lda.theta lda.tassign lda.twords
		//lda.params
		String resPath = PathConfig.LdaResultsPath;
		String modelName = "lda_" + iters;
		ArrayList<String> lines = new ArrayList<String>();
		lines.add("alpha = " + alpha);
		lines.add("beta = " + beta);
		lines.add("topicNum = " + K);
		lines.add("docNum = " + M);
		lines.add("termNum = " + V);
		lines.add("iterations = " + iterations);
		lines.add("saveStep = " + saveStep);
		lines.add("beginSaveIters = " + beginSaveIters);
		FileUtil.writeLines(resPath + modelName + ".params", lines);
		
		//lda.phi K*V
		BufferedWriter writer = new BufferedWriter(new FileWriter(resPath + modelName + ".phi"));		
		for (int i = 0; i < K; i++){
			for (int j = 0; j < V; j++){
				writer.write(phi[i][j] + "\t");
			}
			writer.write("\n");
		}
		writer.close();
		
		//lda.theta M*K
		writer = new BufferedWriter(new FileWriter(resPath + modelName + ".theta"));
		for(int i = 0; i < M; i++){
			for(int j = 0; j < K; j++){
				writer.write(theta[i][j] + "\t");
			}
			writer.write("\n");
		}
		writer.close();
		
		//lda.tassign
		writer = new BufferedWriter(new FileWriter(resPath + modelName + ".tassign"));
		for(int m = 0; m < M; m++){
			for(int n = 0; n < doc[m].length; n++){
				writer.write(doc[m][n] + ":" + z[m][n] + "\t");
			}
			writer.write("\n");
		}
		writer.close();
		
		//lda.twords phi[][] K*V
		writer = new BufferedWriter(new FileWriter(resPath + modelName + ".twords"));
		int topNum = 20; //Find the top 20 topic words in each topic
		for(int i = 0; i < K; i++){
			List<Integer> tWordsIndexArray = new ArrayList<Integer>(); 
			for(int j = 0; j < V; j++){
				tWordsIndexArray.add(new Integer(j));
			}
			Collections.sort(tWordsIndexArray, new LdaModel.TwordsComparable(phi[i]));
			writer.write("topic " + i + "\t:\t");
			for(int t = 0; t < topNum; t++){
				writer.write(docSet.indexToTermMap.get(tWordsIndexArray.get(t)) + " " + phi[i][tWordsIndexArray.get(t)] + "\t");
			}
			writer.write("\n");
		}
		writer.close();
	}
	
	public class TwordsComparable implements Comparator<Integer> {
		
		public double [] sortProb; // Store probability of each word in topic k
		
		public TwordsComparable (double[] sortProb){
			this.sortProb = sortProb;
		}

		@Override
		public int compare(Integer o1, Integer o2) {
			// TODO Auto-generated method stub
			//Sort topic word index according to the probability of each word in topic k
			if(sortProb[o1] > sortProb[o2]) return -1;
			else if(sortProb[o1] < sortProb[o2]) return 1;
			else return 0;
		}
	}
}

程序的实现细节可以参考我在程序中给出的注释，如果理解LDA Gibbs Sampling的算法流程，上面的代码很好理解。其实排除输入输出和参数解析的代码，标准LDA 的Gibbs sampling只需要不到200行程序就可以搞定。当然，里面有很多可以考虑优化和变形的地方。

还有com和conf目录下的源文件分别放置常用函数和配置类，完整的JAVA工程见Github https://github.com/yangliuy/LDAGibbsSampling

3 用LDA Gibbs Sampling对Newsgroup 18828文档集进行主题分析

下面我们给出将上面的LDA Gibbs Sampling的实现Apply到Newsgroup 18828文档集进行主题分析的结果。我实验时用到的数据已经上传到Github中，感兴趣的朋友可以直接从Github中下载工程运行。我在Newsgroup 18828文档集随机选择了9个目录，每个目录下选择一个文档，将它们放置在data\LdaOriginalDocs目录下，我设定的模型参数如下

alpha	0.5
beta	0.1
topicNum	10
iteration	100
saveStep	10
beginSaveIters	80

即设定alpha和beta的值为0.5和0.1， Topic数目为10，迭代100次，从第80次开始保存模型结果，每10次保存一次。

经过100次Gibbs Sampling迭代后，程序输出10个Topic下top的topic words以及对应的概率值如下

我们可以看到虽然是unsupervised learning, LDA分析出来的Topic words还是非常make sense的。比如第5个topic是宗教类的，第6个topic是天文类的，第7个topic是计算机类的。程序的输出还包括模型参数.param文件，topic-word分布phi向量.phi文件，doc-topic分布theta向量.theta文件以及每个文档中每个单词分配到的主题label的.tassign文件。感兴趣的朋友可以从Github https://github.com/yangliuy/LDAGibbsSampling 下载完整工程自己换用其他数据集进行主题分析实验。本程序是初步实现版本，如果大家发现任何问题或者bug欢迎交流，我第一时间在Github修复bug更新版本。

4 参考文献

[1] Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[2] Gregor Heinrich. Parameter estimation for text analysis. Technical report, 2004.
[3] Wang Yi. Distributed Gibbs Sampling of Latent Topic Models: The Gritty Details Technical report, 2005.

[4] Wayne Xin Zhao, Note for pLSA and LDA, Technical report, 2011.

[5] Freddy Chong Tat Chua. Dimensionality reduction and clustering of text documents.Technical report, 2009.

[6] Jgibblda, http://jgibblda.sourceforge.net/

[7]David M. Blei, Andrew Y. Ng, and Michael I. Jordan. 2003. Latent dirichlet allocation. J. Mach. Learn. Res. 3 (March 2003), 993-1022.

RAG 技术探秘：原理、架构与多领域应用实践全解析 hy098543 架构
一、引言1.1研究背景与动机随着自然语言处理（NLP）技术的飞速发展，大语言模型（LLM）在众多任务中展现出了强大的能力，如文本生成、问答系统和机器翻译等。然而，传统的大语言模型在知识存储和更新方面存在一定的局限性。一方面，模型的知识主要依赖于预训练阶段所接触的数据，这导致其知识更新滞后，难以应对快速变化的现实世界信息。例如，对于一些新出现的事件、技术或研究成果，模型可能无法及时给出准确的信息。另
[报错]java.lang.ClassCastException weixin_30782331 java
Causedby:java.lang.ClassCastException:org.apache.xml.dtm.ref.DTMManagerDefaultcannotbecasttoorg.apache.xml.dtm.DTMManagerErrorwhileaddingthemapper'interfacecom.a.b.c'toconfiguration.原因：org.apache.xala
基于HTML5和CSS3实现3D旋转相册效果木木黄木木 html5 css3 3d
基于HTML5和CSS3实现3D旋转相册效果这里写目录标题基于HTML5和CSS3实现3D旋转相册效果项目介绍技术栈核心功能实现原理1.HTML结构2.CSS样式设计2.1基础样式设置2.2容器样式2.3图片样式3.JavaScript实现4.交互功能实现4.1触摸和鼠标拖拽4.2播放控制项目亮点技术难点解析项目总结项目介绍在这个项目中，我们将使用HTML5和CSS3的新特性来实现一个炫酷的3D旋
NLP高频面试题（二十一）——deepseek V1-V3 分别有哪些改进，这些改进是如何对模型产生影响的 Chaos_Wang_ NLP常见面试题自然语言处理人工智能 deepseek
DeepSeek从V1到V3不断迭代升级，在模型架构、训练方法和推理能力等方面取得了显著进步。对于关注前沿大模型技术的研究者而言，深入理解DeepSeek各版本的改进要点及其对模型性能的影响，具有重要的参考价值。本文将按照时间线梳理DeepSeekV1、V2、V3的核心技术演变，包括架构调整（如混合专家MoE、注意力机制优化）、训练数据规模变化、训练目标改进、推理效率优化（如并行化、KV缓存优化）
Java 继承中的构造方法调用规则详解 n33(NK) JAVA java 开发语言
前言最近在学习Java继承时，对构造方法的调用规则产生了一些疑问：如果父类没有无参构造会怎样？多级继承时要怎么处理？子类自身构造方法又会如何影响调用链？通过一番研究和实验，我整理了这篇笔记，分享给大家，希望能帮助到有同样困惑的小伙伴。一、基本规则：构造方法的调用顺序在Java中，当我们通过new创建一个对象时，构造方法的调用遵循以下规则：从父类到子类：构造方法会从最顶层的父类开始，逐级向下调用，直
Java24发布，精心总结后端javajava24
Java24作为2025年3月发布的最新版本，延续了Java平台每半年发布一次的节奏，带来了24项重要改进。本文将按照核心改进领域分类，详细解析每个特性的技术原理和实际价值，帮助开发者全面了解这一版本的能力边界和应用场景。不过Java24是自Java21以来的第三个非长期支持版本，下一个长期支持版是Java25，预计今年9月份发布。性能优化分代Shenandoah垃圾回收器提升吞吐量与响应速度JE
深入理解cocotb的Timing Model (二）
01、写在前面达坦科技即将开源的100GRDMARTL代码采用cocotb对其功能进行验证。因此，本文预先介绍一些cocotb验证框架相关的内容，希望以此抛砖引玉，引起大家对基于cocotb的敏捷验证的相关讨论交流。关于Cocotb的话题，会有一系列文章进行讨论，本篇是此系列的第二篇，欢迎大家关注达坦科技公众号，第一时间阅读最新文章。书接上文，本文将会介绍各种Trigger是如何帮助Python程
社招 Java 中厂面试记录，难度有点大！
个人情况：社招一年半面试公司：上海海鼎信息和深圳小赢科技面试感受：总体难度还是有点大的，第二家公司拷打的问题非常非常多，一共60个问题，多少有点离谱儿。不过，面试体验很好，面试官会引导往哪个方向思考。一面请做一下自我介绍。请介绍一下你参与过的项目。请解释一下接口（Interface）和抽象类（AbstractClass）的区别。什么是受检异常（CheckedException）和非受检异常（Unc
LLM中的分块技术：原理、应用与展望大模型之路大模型（LLM）人工智能 LLM chunk
在大语言模型（LLM）飞速发展的当下，分块技术（Chunking）（RAG中的分块策略：从基础到前沿的全面剖析）作为提升模型性能的关键手段，受到了广泛关注。它在优化信息处理、提高检索效率、增强模型理解能力等方面发挥着不可或缺的作用。深入探究LLMs中的分块技术，对于推动自然语言处理（NLP）领域的发展具有重要意义。一、分块技术的基本概念分块，简单来说，就是将连续的文本流分解为更小的、连贯的单元，这
【03】爬虫的基本原理微臣愚钝 Web Scraping 爬虫
目录一、爬虫概述1.1基本原理1.2获取网页1.3提取信息1.4保存数据二、能抓怎样的数据？三、JavaScript渲染页面一、爬虫概述1.1基本原理我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个
【12】Ajax的原理和解析微臣愚钝 Web Scraping ajax 前端 javascript
一、前言二、什么是Ajax三、Ajax的基本原理3.1发送请求3.2解析内容3.3渲染网页3.4总结四、Ajax分析五、过滤请求-筛选所有Ajax请求一、前言当我们在用requests抓取页面的时候，得到的结果可能会和在浏览器中看到的不一样：在浏览器中正常显示的页面数据，使用requests却没有得到结果。这是因为requests获取的都是原始HTML文档，而浏览器中的页面则是经过JavaScri
elasticsearch8的部署手册 qq_33928223 软件部署 jenkins 运维
部署Elasticsearch8的步骤如下：1.准备工作确保你的服务器满足以下最低硬件和系统要求：CPU:至少2个核心内存:至少4GB存储:至少50GB可用空间（推荐使用SSD）操作系统:支持的Linux发行版，如CentOS、Ubuntu等。安装JDKElasticsearch需要Java运行环境，请先安装JDK17或更高版本。可以从Oracle官网或OpenJDK下载并安装。验证JDK是否正确
Prompt Optimizer 项目教程劳丽娓Fern
PromptOptimizer项目教程prompt-optimizerMinimizeLLMtokencomplexitytosaveAPIcostsandmodelcomputations.项目地址:https://gitcode.com/gh_mirrors/pr/prompt-optimizer1.项目目录结构及介绍prompt-optimizer/├──README.md├──requir
日志的作用是什么？思维导图代码示例（java 架构) 用心去追梦 java 架构 python
日志（Logging）在软件开发和系统管理中扮演着至关重要的角色。它们不仅帮助开发者理解应用程序的行为，还对故障排查、性能监控以及安全审计等方面有着不可替代的作用。以下是关于日志作用的详细说明：日志的作用调试和诊断：在开发过程中，日志可以记录程序执行过程中的状态信息，帮助开发者快速定位并修复问题。对于生产环境中的异常情况，通过分析日志文件可以找到错误发生的原因。运行时监控：日志可以帮助管理员实时监
【Spring Boot 与 Spring Cloud 深度 Mape 之一】剖析 Spring Boot 核心：从快速构建到自动配置原理与实战无眠_ spring boot spring cloud 后端
【SpringBoot与SpringCloud深度Mape之一】剖析SpringBoot核心：从快速构建到自动配置原理与实战#SpringBoot#自动配置#Starter#Actuator#入门#源码分析#Java#后端开发系列开篇：欢迎来到《SpringBoot与SpringCloud微服务体系深度Mape》系列！本系列将带你从SpringBoot的基石出发，逐步深入探索SpringCloud
Hbase的学习笔记（3）白居不易. hbase 学习 java
Hbase的学习笔记（3）本次主要学习Hbase与Java的配合使用，即通过Java语言完成对Hbase表的增删改查。1.所需依赖jar包org.apache.hadoophadoop-clientorg.apache.hadoophadoop-common注意：有些时候程序报错，跟maven的jar包加载顺序有关，具体的可以去了解下相关知识。我在测试时，虽然有的类导包进来是importorg.a
【华为OD技术面试真题 - 技术面】- Java面试题（15) 算法大师华为od 面试 java
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录介绍下TCP/UDPTCP（传输控制协议）和UDP（用户数据报协议）TCP（TransmissionControlProtocol）和UDP（UserDatagramProtocol）是两种常见的传输层协议，主要用于不同类型的网络通信。它们各自有不同的特性、应用场景以及优缺点。下面是对这两种协
【Spring Boot 与 Spring Cloud 深度 Mape 之五】微服务守门神：Spring Cloud Gateway 核心详解与实战无眠_ spring boot spring cloud 微服务
【SpringBoot与SpringCloud深度Mape之五】微服务守门神：SpringCloudGateway核心详解与实战#SpringCloudGateway#APIGateway#路由#断言#过滤器#微服务网关#SpringCloud#SpringBoot#Java系列衔接：在前四篇系列文章中，我们构建了基础的SpringBoot应用，利用Nacos实现了服务注册与发现，并掌握了使用Op
java redirect https跳转http问题只有一个途径 http java https
一、前提nginx:httpstomcat:httpjava:springmvc二、问题描述通过https访问到nginx，通过nginxproxy_pass到http的tomcat。正常访问都正常，但是只要javaredirect就跳转到http。#nginx中配置proxy_redirecthttp://https://;实现流程：根据nginx的不同执行阶段，来完成Locationhttp到
ChatGPT 写代码浅尝--“TypeScript 怎么获取上个月的今天” 胡琦博客 ChatGPT typescript javascript
这是最好的时代，也是最坏的时代，生产力工具的不断进化，作为普通人面临的挑战也越来越巨大。今天有幸使用CHatGPT来编写代码，一起来看看吧，比如她是如何解答“TypeScript怎么获取上个月的今天”这个问题的。Q：TypeScript怎么获取上个月的今天ChatGPT：您可以使用JavaScript中的Date对象来获取上个月的今天。以下是一种获取上个月的今天的TypeScript代码示例：fu
狂神说SpringMVC04：数据处理及跳转齐天大荒 SpringMVC restful spring java
狂神说SpringMVC04：数据处理及跳转在上一节中，我们了解了控制器和Restful风格操作狂神说SpringMVC03：RestFul和控制器现在我们来看看SpringMVC参数接收处理和结果跳转处理吧！结果跳转方式ModelAndView设置ModelAndView对象,根据view的名称,和视图解析器跳到指定的页面.页面:{视图解析器前缀}+viewName+{视图解析器后缀}对应的co
深入详解自然语言处理（NLP）中的语言模型：BERT、GPT及其他预训练模型的原理与应用猿享天开人工智能数学基础专讲人工智能自然语言处理
【自然语言处理】——深入详解自然语言处理（NLP）中的语言模型：BERT、GPT及其他预训练模型的原理与应用自然语言处理（NLP）是人工智能（AI）领域中的重要分支，旨在通过计算机处理和分析自然语言数据，使机器能够理解、生成并与人类语言进行交互。近年来，基于深度学习的预训练语言模型（如BERT、GPT）在NLP任务中表现出了巨大的成功，它们改变了传统NLP技术的发展路径，推动了文本理解和生成技术的
SpringMVC04：数据处理及跳转 LI JS@你猜啊 springmvc 系列笔记 java spring eureka
结果跳转方式ModelAndView设置ModelAndView对象,根据view的名称,和视图解析器跳到指定的页面.页面:{视图解析器前缀}+viewName+{视图解析器后缀}对应的controller类publicclassControllerTest1implementsController{publicModelAndViewhandleRequest(HttpServletReques
MCP的工具链管理：构建高效的工作流 CarlowZJ python linux 开发语言
前言在开发基于MCP（ModelContextProtocol）的应用程序时，工具链管理是实现复杂功能和高效工作流的关键。通过合理地组织和管理工具链，开发者可以构建出更加智能、高效的应用。本文将详细介绍MCP的工具链管理功能，并通过代码示例展示如何实现高效的工作流。一、工具链管理的作用（一）提升工作效率通过工具链管理，可以将多个工具组合成一个高效的工作流，减少人工干预，提升工作效率。（二）实现复杂
AI 对话艺术：Prompt 设计技巧与案例解析码事漫谈 AI 人工智能 prompt
文章目录第1章：Prompt基础1.1什么是Prompt？1.1.1Prompt的定义1.1.2Prompt编程与传统编程的区别1.2Prompt的作用与应用场景1.2.1自然语言处理（NLP）1.2.2AI对话系统（ChatGPT、Claude）1.2.3代码生成与优化1.2.4视觉与多模态AI1.3常见Prompt结构与写作原则1.3.1常见Prompt结构1.3.2高效Prompt写作原则1
Mac mini M4 多版本JDK环境部署 Jerry.Jiang 技术文档 macos java 开发语言
MacminiM4多版本JDK环境部署一、环境准备与安装流程1.1硬件适配说明MacminiM4采用第三代AppleSilicon架构（ARMv9），需选择ARM64架构的JDK安装包。Oracle官方已提供原生支持M4芯片的安装包。1.2软件包获取Oracle官方下载：JavaSEDevelopmentKit8u431(ARM64)：jdk-8u431-macosx-aarch64.dmg需注册
【论文阅读】SAM2 : Segment Anything in Images and Videos s1ckrain 计算机视觉论文阅读计算机视觉机器学习
SAM2:SegmentAnythinginImagesandVideos原文摘要：模型目标：SAM2（SegmentAnythingModel2）是一个基础模型，旨在解决图像和视频中的**可提示视觉分割（promptablevisualsegmentation）**任务。数据引擎：构建了一个数据引擎，通过用户交互改进模型和数据，收集了迄今为止最大的视频分割数据集。模型架构：采用简单的Transf
若依Ruoyi之智能售货机运营管理系统（新增运营运维工单管理）爱吃java的羊儿若依ruoyi框架 sql java intellij-idea
idea抽取独立方法快捷键：ctrl+alt+mTaskDto.javapackagecom.dkd.manage.service.impl;importjava.time.Duration;importjava.util.List;importjava.util.stream.Collectors;importcn.hutool.core.bean.BeanUtil;importcn.hutoo
厂内物流调度控制系统RCS-2000 V3.1.3：高效集成，轻松调度葛冉忱Edith
厂内物流调度控制系统RCS-2000V3.1.3：高效集成，轻松调度【下载地址】厂内物流调度控制系统RCS-2000V3.1.3对外任务接口文档及用例DEMO本仓库提供厂内物流调度控制系统RCS-2000V3.1.3的对外任务接口文档公开版，包含详细的接口文档PDF文件，以及JAVA和C#的用例DEMO。该资源文件旨在帮助开发者快速理解和集成RCS-2000V3.1.3的对外任务接口项目地址:ht
2024年必须要知道的7大Javascript特性 codeory JavaScript javascript 前端开发语言
1.Promise.withResolvers（带解析器的Promise）这个新特性引入了一个创建Promise的新方法，它公开了其解析（resolve）和拒绝（reject）的回调函数。通过Promise.withResolvers，开发者们可以创建可以在执行函数之外解析或拒绝的Promise，从而在异步编程中提供了更大的灵活性。const[promise,resolve,reject]=Pro
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

[置顶] 概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现

你可能感兴趣的:(java,Model,topic,NLP,LDA,sampling,Gibbs)