mm_bit

LDA主题模型的java代码实现

public class LdaGibbsSampling {
	public static class modelparameters {  
        float alpha = 0.5f; //usual value is 50 / K  
        float beta = 0.1f;//usual value is 0.1  
        int topicNum = 100;  
        int iteration = 100;  
        int saveStep = 10;  
        int beginSaveIters = 50;  
    }  
      
    /**Get parameters from configuring file. If the  
     * configuring file has value in it, use the value. 
     * Else the default value in program will be used 
     * @param ldaparameters 
     * @param parameterFile 
     * @return void 
     */  
    private static void getParametersFromFile(modelparameters ldaparameters,  
            String parameterFile) {  
        // TODO Auto-generated method stub  
        ArrayList<String> paramLines = new ArrayList<String>();  
        paramLines = FileUtil.readList(parameterFile);  
        for(String line : paramLines){  
            String[] lineParts = line.split("\t");  
            switch(parameters.valueOf(lineParts[0])){  
            case alpha:  
                ldaparameters.alpha = Float.valueOf(lineParts[1]);  
                break;  
            case beta:  
                ldaparameters.beta = Float.valueOf(lineParts[1]);  
                break;  
            case topicNum:  
                ldaparameters.topicNum = Integer.valueOf(lineParts[1]);  
                break;  
            case iteration:  
                ldaparameters.iteration = Integer.valueOf(lineParts[1]);  
                break;  
            case saveStep:  
                ldaparameters.saveStep = Integer.valueOf(lineParts[1]);  
                break;  
            case beginSaveIters:  
                ldaparameters.beginSaveIters = Integer.valueOf(lineParts[1]);  
                break;  
            }  
        }  
    }  
      
    public enum parameters{  
        alpha, beta, topicNum, iteration, saveStep, beginSaveIters;  
    } 
    
    /**
     * 训练LDA主题模型，对给定的测试样本集进行主题预测，找出每个样本的最大概率主题下的前20个词的集合，作为该测试样本集的主题代表关键词集合
     * @param trainPathDir
     * @param parameterFile
     * @param resultPath
     * @param testPath
     * @return
     * @throws IOException
     */
    public Set<Word> trainAndPredictLDA(String trainPathDir,String parameterFile,String resultPath,String testPath) throws IOException{
    	 modelparameters ldaparameters = new modelparameters();  
         getParametersFromFile(ldaparameters, parameterFile); 
         Documents docSet = new Documents();  
         docSet.readDocs(trainPathDir);
         System.out.println("wordMap size " + docSet.termToIndexMap.size());  
         FileUtil.mkdir(resultPath);
         LdaModel model = new LdaModel(ldaparameters);  
         System.out.println("1 Initialize the model ...");  
         model.initializeModel(docSet);  
         System.out.println("2 Learning and Saving the model ...");  
         model.inferenceModel(docSet);  
         System.out.println("3 Output the final model ...");  
//         model.saveIteratedModel(ldaparameters.iteration, docSet);  
//         System.out.println("Done!"); 
         
         //预测新文本
         Documents testDocs = new Documents();
         List<Message> messages = FileUtil.readMessageFromFile(testPath);
         Set<Integer> topicIndexSet = new HashSet<Integer> ();
         for(Message message : messages){
        	 String content = message.getContent();
        	 Document doc = new Document(content);
        	 testDocs.docs.add(doc);
             topicIndexSet.add(model.predictNewSampleTopic(doc));
         }
         /**
          * 预测每条短信，得到每条的最大概率主题，最后找到每个最大概率主题的前20个词，集合,计算tf-idf
          */
         Set<Word> wordSet = model.getWordByTopics(topicIndexSet, 20);
         LDAFeatureProcess.calTFIDFAsWeight(docSet, wordSet);
         return wordSet;
    }
    @Test
    public void test() throws IOException{
    	String resultPath = "ldaResult/";  
        String parameterFile= "source/lda_parameters.txt";
        String trainPathDir = "LDATrain/";
        String testPath = "train/train_messages.txt";
        Set<Word> wordSet = trainAndPredictLDA(trainPathDir,parameterFile,resultPath,testPath);
        FileUtil.writeKeyWordFile("ldaWords/keyWords.doc", new ArrayList<Word>(wordSet));
    }

      
    /** 
     * @param args 
     * @throws IOException  
     */  
    public static void main(String[] args) throws IOException {  
        // TODO Auto-generated method stub          
        String resultPath = "ldaResult/";  
        String parameterFile= "source/lda_parameters.txt";  
          
        modelparameters ldaparameters = new modelparameters();  
        getParametersFromFile(ldaparameters, parameterFile); 
        String dirPath = "LDATrain/";
        Documents docSet = new Documents();  
        docSet.readDocs(dirPath);
        System.out.println("wordMap size " + docSet.termToIndexMap.size());  
        FileUtil.mkdir(resultPath);
        LdaModel model = new LdaModel(ldaparameters);  
        System.out.println("1 Initialize the model ...");  
        model.initializeModel(docSet);  
        System.out.println("2 Learning and Saving the model ...");  
        model.inferenceModel(docSet);  
        System.out.println("3 Output the final model ...");  
        model.saveIteratedModel(ldaparameters.iteration, docSet);  
        System.out.println("Done!");  
        
        //预测新文本
        String messStr = "好消息！！薇町婚纱造型推出老带新活动啦！已在本店预定的新娘推荐新顾客来本店，定单后即赠送新、老顾客各一支价值58元定妆隔离水（在婚礼当";
        Document doc = new Document(messStr);
        int topicIndex = model.predictNewSampleTopic(doc);
        Set<Word> wordSet  = model.getWordByTopic(topicIndex);        
        FileUtil.writeKeyWordFile("ldaWords/comparedkeyWords.doc", new ArrayList<Word>(wordSet));        
    }  

}

public class LdaModel {
	
    int [][] doc;//word index array  
    int V, K, M;//vocabulary size, topic number, document number  
    int [][] z;//topic label array  
    float alpha; //doc-topic dirichlet prior parameter   
    float beta; //topic-word dirichlet prior parameter  
    int [][] nmk;//given document m, count times of topic k. M*K  
    int [][] nkt;//given topic k, count times of term t. K*V  
    int [] nmkSum;//Sum for each row in nmk  
    int [] nktSum;//Sum for each row in nkt  
    double [][] phi;//Parameters for topic-word distribution K*V  
    double [][] theta;//Parameters for doc-topic distribution M*K  
    int iterations;//Times of iterations  
    int saveStep;//The number of iterations between two saving  
    int beginSaveIters;//Begin save model at this iteration  
    Map<String, Integer> wordIndexMap;
    Documents docSet;
      
    public LdaModel(LdaGibbsSampling.modelparameters modelparam) {  
        // TODO Auto-generated constructor stub  
        alpha = modelparam.alpha;  
        beta = modelparam.beta;  
        iterations = modelparam.iteration;  
        K = modelparam.topicNum;  
        saveStep = modelparam.saveStep;  
        beginSaveIters = modelparam.beginSaveIters;  
    }  
  
    public void initializeModel(Documents docSet) { 
    	this.docSet = docSet;
        // TODO Auto-generated method stub  
        M = docSet.docs.size();  
        V = docSet.termToIndexMap.size();  
        nmk = new int [M][K];  
        nkt = new int[K][V];  
        nmkSum = new int[M];  
        nktSum = new int[K];  
        phi = new double[K][V];  
        theta = new double[M][K];  
        this.wordIndexMap = new HashMap<String, Integer> ();
          
        //initialize documents index array  
        doc = new int[M][];  
        for(int m = 0; m < M; m++){  
            //Notice the limit of memory  
            int N = docSet.docs.get(m).docWords.length;  
            doc[m] = new int[N];  
            for(int n = 0; n < N; n++){  
                doc[m][n] = docSet.docs.get(m).docWords[n];  
            }  
        }  
          
        //initialize topic lable z for each word  
        z = new int[M][];  
        for(int m = 0; m < M; m++){  
            int N = docSet.docs.get(m).docWords.length;  
            z[m] = new int[N];  
            for(int n = 0; n < N; n++){  
            	//随机初始化！
                int initTopic = (int)(Math.random() * K);// From 0 to K - 1  
                z[m][n] = initTopic;  
                //number of words in doc m assigned to topic initTopic add 1  
                nmk[m][initTopic]++;  
                //number of terms doc[m][n] assigned to topic initTopic add 1  
                nkt[initTopic][doc[m][n]]++;  
                // total number of words assigned to topic initTopic add 1  
                nktSum[initTopic]++;  
            }  
             // total number of words in document m is N  
            nmkSum[m] = N;  
        }  
    }  
  
    public void inferenceModel(Documents docSet) throws IOException {  
        // TODO Auto-generated method stub  
        if(iterations < saveStep + beginSaveIters){  
            System.err.println("Error: the number of iterations should be larger than " + (saveStep + beginSaveIters));  
            System.exit(0);  
        }  
        for(int i = 0; i < iterations; i++){  
            System.out.println("Iteration " + i);  
            if((i >= beginSaveIters) && (((i - beginSaveIters) % saveStep) == 0)){  
                //Saving the model  
                System.out.println("Saving model at iteration " + i +" ... ");  
                //Firstly update parameters  
                updateEstimatedParameters();  
                //Secondly print model variables  
                saveIteratedModel(i, docSet);  
            }  
              
            //Use Gibbs Sampling to update z[][]  
            for(int m = 0; m < M; m++){  
                int N = docSet.docs.get(m).docWords.length;  
                for(int n = 0; n < N; n++){  
                    // Sample from p(z_i|z_-i, w)  
                    int newTopic = sampleTopicZ(m, n);  
                    z[m][n] = newTopic;  
                }  
            }  
        }  
    }  
      
    private void updateEstimatedParameters() {  
        // TODO Auto-generated method stub  
        for(int k = 0; k < K; k++){  
            for(int t = 0; t < V; t++){  
                phi[k][t] = (nkt[k][t] + beta) / (nktSum[k] + V * beta);  
            }  
        }  
          
        for(int m = 0; m < M; m++){  
            for(int k = 0; k < K; k++){  
                theta[m][k] = (nmk[m][k] + alpha) / (nmkSum[m] + K * alpha);  
            }  
        }  
    }  
  
    private int sampleTopicZ(int m, int n) {  
        // TODO Auto-generated method stub  
        // Sample from p(z_i|z_-i, w) using Gibbs upde rule  
          
        //Remove topic label for w_{m,n}  
        int oldTopic = z[m][n];  
        nmk[m][oldTopic]--;  
        nkt[oldTopic][doc[m][n]]--;  
        nmkSum[m]--;  
        nktSum[oldTopic]--;  
          
        //Compute p(z_i = k|z_-i, w)  
        double [] p = new double[K];  
        for(int k = 0; k < K; k++){  
            p[k] = (nkt[k][doc[m][n]] + beta) / (nktSum[k] + V * beta) * (nmk[m][k] + alpha) / (nmkSum[m] + K * alpha);  
        }  
          
        //Sample a new topic label for w_{m, n} like roulette  
        //Compute cumulated probability for p  
        for(int k = 1; k < K; k++){  
            p[k] += p[k - 1];  
        }  
        double u = Math.random() * p[K - 1]; //p[] is unnormalised  
        int newTopic;  
        for(newTopic = 0; newTopic < K; newTopic++){  
            if(u < p[newTopic]){  
                break;  
            }  
        }  
          
        //Add new topic label for w_{m, n}  
        nmk[m][newTopic]++;  
        nkt[newTopic][doc[m][n]]++;  
        nmkSum[m]++;  
        nktSum[newTopic]++;  
        return newTopic;  
    } 
    /**
     * 对给定的待预测的文本，将其分词结果的单词与训练集的单词的索引对应上
     * @param predictWordSet
     * @return
     */
    public Map<String,String> matchTermIndex(Set<Word> predictWordSet){
    	/**
    	 * key:word的内容 value：文档index-单词index，如“1-2”
    	 */
    	Map<String,String> wordIndexMap = new HashMap<String, String> ();
    	for(Word word : predictWordSet){
    		String content = word.getContent();
    		String indexStr = getTermIndex(content);
    		wordIndexMap.put(content, indexStr);
    	}
    	return wordIndexMap;
    }
    /**
     * 对于给定单词，找到该单词在训练集中对应的文档和单词索引
     * @param content
     * @return
     */
    public String getTermIndex(String content){
    	for(Integer m : docSet.getDocWordsList().keySet()){
    		LinkedList<String> list = docSet.getDocWordsList().get(m);
    		for(int i = 0; i < list.size(); i ++){
    			if(list.get(i).equals(content))
                   return m+"-"+i;
    		}
    	}
    	return "none";
    }
    /**
     * 在训练完LDA模型后，根据给定的主题索引set，得到每个主题的topNum单词列表集合
     * @param topicIndexSet
     * @param topNum
     * @return
     */
    public Set<Word> getWordByTopics(Set<Integer> topicIndexSet, int topNum){
    	Set<Word> wordSet = new HashSet<Word> ();
    	for(Integer indexT : topicIndexSet){
    		List<Integer> tWordsIndexArray = new ArrayList<Integer>();   
            for(int j = 0; j < V; j++) 
                tWordsIndexArray.add(new Integer(j));            
            Collections.sort(tWordsIndexArray, new LdaModel.TwordsComparable(phi[indexT]));
            for(int t = 0; t < topNum; t++){
            	String content = docSet.indexToTermMap.get(tWordsIndexArray.get(t));
            	Word word = new Word(content);
            	if(SegmentWordsResult.getStopWordsSet().contains(content)||
            			ProcessKeyWords.remove(word) || ProcessKeyWords.isMeaninglessWord(content))
            		continue;
      		    wordSet.add(word);
            }
    	}
    	return wordSet;
    }
    
    public Set<Word> getWordByTopic(Integer topicIndex){
    	  Set<Word> wordSet = new HashSet<Word> ();
    	  List<Integer> tWordsIndexArray = new ArrayList<Integer>();   
	      for(int j = 0; j < V; j++){  
	          tWordsIndexArray.add(new Integer(j));  
	      }  
	      Collections.sort(tWordsIndexArray, new LdaModel.TwordsComparable(phi[topicIndex]));    
	      for(int t = 0; t < V; t++){  
	    	  String content = docSet.indexToTermMap.get(tWordsIndexArray.get(t));
	      	  Word word = new Word(content);
	      	  word.setWeight(phi[topicIndex][tWordsIndexArray.get(t)]);
	      	  if(SegmentWordsResult.getStopWordsSet().contains(content)||
	      			ProcessKeyWords.remove(word) || ProcessKeyWords.isMeaninglessWord(content))
	      		  continue;
	      	  if(phi[topicIndex][tWordsIndexArray.get(t)] <= 0.0)
	      		  continue;
	      	wordSet.add(word);
	      }               	
	    	return wordSet;
    }
    
    
    public int predictNewSampleTopic(Document doc){
    	double topicProb[] = new double[K];
    	Map<String,String> wordIndexMap = matchTermIndex(doc.getWordMap().keySet()); 
    	int predict_v = doc.getWordCount();
    	int [][] predict_nkt;//given topic k, count times of term t. K*V 
    	double [][] predict_phi;//Parameters for topic-word distribution K*V
    	int [] predict_z;//topic label array
    	int [] predict_nk;//该文档覆盖的主题索引，值为该文档覆盖指定主题的次数
    	
    	predict_nkt = new int[K][predict_v];
    	predict_phi = new double[K][predict_v];
    	predict_z = new int[predict_v];
    	predict_nk = new int[K];
    	for(int index = 0; index < predict_v; index++){
    		String content = doc.getWordsList().get(index);
    		String indexStr = wordIndexMap.get(content);
    		if(indexStr.indexOf("-") == -1)
    			continue;
    		int m = Integer.valueOf(indexStr.substring(0, indexStr.indexOf("-")));
    		int n = Integer.valueOf(indexStr.substring(indexStr.indexOf("-")+1));
            // Sample from p(z_i|z_-i, w)  
            int newTopic = predictSampleTopicZ(m, n);  
            predict_z[index] = newTopic;  
            predict_nkt[newTopic][index] ++;
            predict_nk[newTopic] ++;
        }
    	for(int k = 0; k < K; k++){  
    		topicProb[k] = (predict_nk[k] + alpha) / (predict_v + K * alpha);  
        }
    	return getTopic(topicProb);     	
    	
    }
    
    public int getTopic(double[] topicProp){
    	int maxIndex = 0;
    	double maxProp = topicProp[0];
    	Set<String> words = new HashSet<String> ();
    	for(int k = 1; k < K; k ++){
    		if(maxProp < topicProp[k]){
    			maxProp = topicProp[k];
    			maxIndex = k;
    		}
    	}
    	return maxIndex;
    }
    
    public int predictSampleTopicZ(int m, int n){
    	 // TODO Auto-generated method stub  
        // Sample from p(z_i|z_-i, w) using Gibbs upde rule                   
          
        //Compute p(z_i = k|z_-i, w)  
        double [] p = new double[K];  
        for(int k = 0; k < K; k++){  
            p[k] = (nkt[k][doc[m][n]] + beta) / (nktSum[k] + V * beta) * (nmk[m][k] + alpha) / (nmkSum[m] + K * alpha);  
        }  
          
        //Sample a new topic label for w_{m, n} like roulette  
        //Compute cumulated probability for p  
        for(int k = 1; k < K; k++){  
            p[k] += p[k - 1];  
        }  
        double u = Math.random() * p[K - 1]; //p[] is unnormalised  
        int newTopic;  
        for(newTopic = 0; newTopic < K; newTopic++){  
            if(u < p[newTopic]){  
                break;  
            }  
        }  
          
        //Add new topic label for w_{m, n}   
        return newTopic;  
    }
  
    public void saveIteratedModel(int iters, Documents docSet) throws IOException {  
        // TODO Auto-generated method stub  
        //lda.params lda.phi lda.theta lda.tassign lda.twords  
        //lda.params 
    	String resultPath = "ldaResult/"; 
        String modelName = "lda_" + iters;  
        ArrayList<String> lines = new ArrayList<String>();  
        lines.add("alpha = " + alpha);  
        lines.add("beta = " + beta);  
        lines.add("topicNum = " + K);  
        lines.add("docNum = " + M);  
        lines.add("termNum = " + V);  
        lines.add("iterations = " + iterations);  
        lines.add("saveStep = " + saveStep);  
        lines.add("beginSaveIters = " + beginSaveIters);  
        FileUtil.writeLines(resultPath + modelName + ".params", lines);  
          
        //lda.phi K*V  
        BufferedWriter writer = new BufferedWriter(new FileWriter(resultPath + modelName + ".phi"));         
        for (int i = 0; i < K; i++){  
            for (int j = 0; j < V; j++){  
                writer.write(phi[i][j] + "\t");  
            }  
            writer.write("\n");  
        }  
        writer.close();  
          
        //lda.theta M*K  
        writer = new BufferedWriter(new FileWriter(resultPath + modelName + ".theta"));  
        for(int i = 0; i < M; i++){  
            for(int j = 0; j < K; j++){  
                writer.write(theta[i][j] + "\t");  
            }  
            writer.write("\n");  
        }  
        writer.close();  
          
        //lda.tassign  
        writer = new BufferedWriter(new FileWriter(resultPath + modelName + ".tassign"));  
        for(int m = 0; m < M; m++){  
            for(int n = 0; n < doc[m].length; n++){  
                writer.write(doc[m][n] + ":" + z[m][n] + "\t");  
            }  
            writer.write("\n");  
        }  
        writer.close();  
        List<Word> appendwords = new ArrayList<Word> ();  
        //lda.twords phi[][] K*V  
        writer = new BufferedWriter(new FileWriter(resultPath + modelName + ".twords"));  
        int topNum = 10; //Find the top 20 topic words in each topic  
        for(int i = 0; i < K; i++){  
            List<Integer> tWordsIndexArray = new ArrayList<Integer>();   
            for(int j = 0; j < V; j++){  
                tWordsIndexArray.add(new Integer(j));  
            }  
            Collections.sort(tWordsIndexArray, new LdaModel.TwordsComparable(phi[i]));  
            writer.write("topic " + i + "\t:\t");  
            for(int t = 0; t < topNum; t++){  
                writer.write(docSet.indexToTermMap.get(tWordsIndexArray.get(t)) + " " + phi[i][tWordsIndexArray.get(t)] + "\t");  
                Word word = new Word(docSet.indexToTermMap.get(tWordsIndexArray.get(t)));
                word.setWeight(phi[i][tWordsIndexArray.get(t)]);
                appendwords.add(word);
            }  
            writer.write("\n");  
        }        
        writer.close(); 
        //lda.words
        writer = new BufferedWriter(new FileWriter(resultPath + modelName + ".words"));
        for(Word word : appendwords){
        	if(word.getContent().trim().equals(""))
        		continue;
        	writer.write(word.getContent()+"\t"+word.getWeight()+"\n");
        }
        writer.close();
    }  
      
    public class TwordsComparable implements Comparator<Integer> {  
          
        public double [] sortProb; // Store probability of each word in topic k  
          
        public TwordsComparable (double[] sortProb){  
            this.sortProb = sortProb;  
        }  
  
        @Override  
        public int compare(Integer o1, Integer o2) {  
            // TODO Auto-generated method stub  
            //Sort topic word index according to the probability of each word in topic k  
            if(sortProb[o1] > sortProb[o2]) return -1;  
            else if(sortProb[o1] < sortProb[o2]) return 1;  
            else return 0;  
        }  
    } 
    
    public static void main(String[] args){
    	 
    }

}

public class Documents {
ArrayList<Document> docs;   
    Map<String, Integer> termToIndexMap;  
    ArrayList<String> indexToTermMap;  
    Map<String,Integer> termCountMap;
    private static NLPIRUtil npr = new NLPIRUtil();
    private static Set<String> stopWordsSet = SegmentWordsResult.getStopWordsSet();
    private Map<Word,Integer> wordDocMap;
    private Map<Integer, LinkedList<String>> docWordsList;//key:第i篇文档，value：单词列表，为了与lda模型中的doc[m][n]的索引对应
    
      
    public Documents(){  
        docs = new ArrayList<Document>();  
        termToIndexMap = new HashMap<String, Integer>();  
        indexToTermMap = new ArrayList<String>();  
        termCountMap = new HashMap<String, Integer>();
        this.wordDocMap = new HashMap<Word, Integer> ();
        this.docWordsList = new HashMap<Integer, LinkedList<String>> ();
    }  
      
public Map<String, Integer> getTermCountMap() {
return termCountMap;
}


public void setTermCountMap(Map<String, Integer> termCountMap) {
this.termCountMap = termCountMap;
}

 public Map<Word, Integer> getWordDocMap() {
return wordDocMap;
}


public void setWordDocMap(Map<Word, Integer> wordDocMap) {
this.wordDocMap = wordDocMap;
}


public Map<Integer, LinkedList<String>> getDocWordsList() {
return docWordsList;
}


public void setDocWordsList(Map<Integer, LinkedList<String>> docWordsList) {
this.docWordsList = docWordsList;
}


public void readDocs(String docsPath){ 
int index = 0;
        for(File docFile : new File(docsPath).listFiles()){ 
            Document doc = new Document(docFile.getAbsolutePath(), termToIndexMap, indexToTermMap, termCountMap);  
            docs.add(doc); 
            for(Word word : doc.getWordMap().keySet()){
            if(this.wordDocMap.containsKey(word))
            this.wordDocMap.put(word, this.wordDocMap.get(word));
            else
            this.wordDocMap.put(word, 1);
            }
            this.docWordsList.put(index++, doc.getWordsList());
        } 
       
    }  


}

public class Document {
	private static NLPIRUtil npr = new NLPIRUtil();
	private static Set<String> stopWordsSet = SegmentWordsResult.getStopWordsSet();
	private String docName;  
    int[] docWords; 
    private int wordCount;
    private Map<Word, Integer> wordMap ;
    private LinkedList<String> wordsList;//为了和docWords的索引对应，即单词内容对应索引值
    
    public int getWordCount() {
		return wordCount;
	}

	public void setWordCount(int wordCount) {
		this.wordCount = wordCount;
	}

	public Map<Word, Integer> getWordMap() {
		return wordMap;
	}

	public void setWordMap(Map<Word, Integer> wordMap) {
		this.wordMap = wordMap;
	}

	public LinkedList<String> getWordsList() {
		return wordsList;
	}

	public void setWordsList(LinkedList<String> wordsList) {
		this.wordsList = wordsList;
	}
	
	public Document(String docContent){ 
		this.wordMap = new HashMap<Word, Integer> ();
    	this.wordsList = new LinkedList<String> ();
    	String splitResult = npr.NLPIR_ParagraphProcess(ProcessMessage.dealWithSentence(docContent), 0);
        String[] wordsArray = splitResult.split(" ");
        this.docWords = new int[wordsArray.length];
        int index = 0;   
        //Transfer word to index
        for(String str : wordsArray){
        	String content = ProcessMessage.dealSpecialString(str);
        	Word word = new Word(content);
			if(ProcessKeyWords.remove(word) || stopWordsSet.contains(content))   	
				continue;
			else if(content.length() <= 1 || RegexMatch.specialMatch(content))
			    continue;
			this.wordCount ++;
			if(!wordMap.containsKey(content)){
				int newIndex = wordMap.size();  
				wordMap.put(word, 1);
                docWords[index++] = newIndex;
			}else{
				 wordMap.put(word, wordMap.get(word)+1);
				 docWords[index++] = wordMap.get(content);
			}
			this.wordsList.add(content);
        }
        
	}

	public Document(String filePath,Map<String, Integer> termToIndexMap, ArrayList<String> indexToTermMap, Map<String, Integer> termCountMap){  
		this(FileUtil.readContent(filePath));
		this.docName = filePath; 
    	this.wordMap = new HashMap<Word, Integer> ();
    	this.wordsList = new LinkedList<String> ();
        //Read file and initialize word index array    
        String docContent = FileUtil.readContent(docName); 
       
        String splitResult = npr.NLPIR_ParagraphProcess(docContent, 0);
        String[] wordsArray = splitResult.split(" ");
        this.docWords = new int[wordsArray.length];
        int index = 0;   
        //Transfer word to index
        for(String str : wordsArray){
        	String content = ProcessMessage.dealSpecialString(str);
        	Word word = new Word(content);
			if(ProcessKeyWords.remove(word) || stopWordsSet.contains(content))   	
				continue;
			else if(ProcessKeyWords.isMeaninglessWord(content))
				continue;
			this.wordCount ++;
			if(!termToIndexMap.containsKey(content)){
				int newIndex = termToIndexMap.size();  
				termToIndexMap.put(str, newIndex);  
                indexToTermMap.add(str);  
                termCountMap.put(str, new Integer(1)); 
                docWords[index++] = newIndex;
			}else{
				 termCountMap.put(content, termCountMap.get(content) + 1); 
				 docWords[index++] = termToIndexMap.get(content);
			}
			this.wordsList.add(content);
		    if(wordMap.containsKey(word))
		    	wordMap.put(word, wordMap.get(word)+1);
		    else
		    	wordMap.put(word, 1);
        }
        
    }  
      
    public boolean isNoiseWord(String string) {  
        // TODO Auto-generated method stub  
        string = string.toLowerCase().trim();  
        Pattern MY_PATTERN = Pattern.compile(".*[a-zA-Z]+.*");  
        Matcher m = MY_PATTERN.matcher(string);  
        // filter @xxx and URL  
        if(string.matches(".*www\\..*") || string.matches(".*\\.com.*") ||   
                string.matches(".*http:.*") )  
            return true;  
        else  
            return false;  
    }  
      
}

上述中的LdaModel中包含了预测新样本的方法predictNewSampleTopic，返回的是该样本的最大概率主题索引，LdaGibbsSampling中是训练LDA主题模型的流程
主题-单词分布的部分结果如下：

topic 0 : ⒐ 0.0029859442729502916 住宅 0.002257665153592825制造 0.002257665153592825 行为 0.002257665153592825收益 0.0015293860342353582 西北 0.0015293860342353582红星 0.0015293860342353582 轻松 0.0015293860342353582小商品 0.0015293860342353582 搜房网 0.0015293860342353582

topic 1 : 贵宾 0.0030435749795287848 商城 0.0023012396413832903 太平洋保险 0.0015589043032377958 建设 0.0015589043032377958 储蓄 0.0015589043032377958 周四 0.0015589043032377958 完成 0.0015589043032377958 区内 0.0015589043032377958 王志钢 0.0015589043032377958 872944 0.0015589043032377958
topic 2 : 油田 0.0017282527405768633 雀巢 0.0017282527405768633 金千 0.0017282527405768633 山腰 9.052753448486328E-4
代办 9.052753448486328E-4 洋房 9.052753448486328E-4 月饼 9.052753448486328E-4 三星 9.052753448486328E-4 集成 9.052753448486328E-4 大桥 9.052753448486328E-4
topic 3 : 美容 0.0016053818399086595 疯狂 0.0016053818399086595 获取 0.0016053818399086595 名牌 0.0016053818399086595 风神 0.0016053818399086595 小额 0.0016053818399086595 璀璨 0.0016053818399086595 一千 0.0016053818399086595 专注 0.0016053818399086595 发放 0.0016053818399086595
topic 4 : 焦点 0.002957939635962248 搜狐 0.002236490836367011
房屋 0.002236490836367011 玉兰 0.002236490836367011 短期 0.002236490836367011 理疗 0.002236490836367011 4001080000 0.0015150421531870961 命题 0.0015150421531870961 公开 0.0015150421531870961 乐器 0.0015150421531870961
topic 5 : 实验 0.0023698494769632816 每块 0.0023698494769632816 收费 0.0023698494769632816 博览 0.0016053818399086595 重新 0.0016053818399086595 任意 0.0016053818399086595 借款 0.0016053818399086595 保底 0.0016053818399086595 预期 0.0016053818399086595 初二 0.0016053818399086595
topic 6 : 宗旨 0.0016625761054456234 陈勇军 0.0016625761054456234 拨打 0.0016625761054456234 家人 0.0016625761054456234 工业 0.0016625761054456234 百货店 0.0016625761054456234 实业 0.0016625761054456234 6222024000068818521 0.0016625761054456234 18692297994 0.0016625761054456234 13300 0.0016625761054456234
topic 7 : → 0.005167018622159958 餐厅 0.00298377126455307 保修 0.00298377126455307 英语 0.0022560220677405596
红 0.0022560220677405596 普通 0.0022560220677405596 学习 0.001528272987343371 龙湖 0.001528272987343371 电大 0.001528272987343371 任意 0.001528272987343371
topic 8 : 登陆 0.0025078877806663513 食宿 0.001698891632258892 急需 0.001698891632258892 建行 0.001698891632258892 葡萄酒 0.001698891632258892 新版 0.001698891632258892 富豪 0.001698891632258892 对比 0.001698891632258892 泥工 0.001698891632258892 相信 8.898956584744155E-4
topic 9 : 体育 0.7940398454666138 活动 0.005577780772000551 优惠 0.0038460372015833855 欢迎 0.003806901630014181 银行 0.0032981408294290304 电话 0.003268789267167449 联系 0.0031611667945981026 公司 0.002769812010228634 地址 0.0024860799312591553 】 0.002339322119951248
topic 10 : 年级 0.0023899467196315527
车主 0.0023899467196315527 过程 0.0016189961461350322 华联 0.0016189961461350322 家电 0.0016189961461350322 大业 0.0016189961461350322 时代 0.0016189961461350322 迪赛尼斯 0.0016189961461350322 稀缺 0.0016189961461350322 稳定 0.0016189961461350322
topic 11 : 利率 0.002570267766714096 知名 0.002570267766714096 南湖 0.0017411491135135293 实现 0.0017411491135135293 立秋 0.0017411491135135293 就读 0.0017411491135135293 罗马 0.0017411491135135293 广电局 0.0017411491135135293 独具 0.0017411491135135293 静候 0.0017411491135135293
topic 12 : 哥哥 0.0029536776710301638 家里 0.0029536776710301638 化妆 0.0029536776710301638 名品 0.0022332684602588415
一 0.0022332684602588415 四川 0.0015128592494875193 二手车 0.0015128592494875193 订购 0.0015128592494875193 多种 0.0015128592494875193 潜力 0.0015128592494875193
topic 13 : 建行 0.002435001078993082 开发商 0.0016495168674737215 美容 0.0016495168674737215 奔驰 0.0016495168674737215 比例 0.0016495168674737215 英伦 0.0016495168674737215 开通 0.0016495168674737215 开班 0.0016495168674737215 打开 0.0016495168674737215 英国 0.0016495168674737215
topic 14 : 增值 0.002355444012209773 [验] 0.002355444012209773 公开 0.0015956234419718385 打印机 0.0015956234419718385 家中 0.0015956234419718385 宾馆 0.0015956234419718385 12000 0.0015956234419718385 渠道 0.0015956234419718385 租赁 0.0015956234419718385 无效 0.0015956234419718385
topic 15 : 自由 0.0024857670068740845
巴拉巴 0.0024857670068740845
丰 0.0024857670068740845 朝阳 0.001683906652033329 家人 0.001683906652033329 84725588 0.001683906652033329 老弟 0.001683906652033329 商住 0.001683906652033329 县委 0.001683906652033329 德国 8.820463554002345E-4
topic 16 : ￥10亿 0.002975110663101077 楼下 0.002249473938718438 感恩 0.002249473938718438 独栋 0.002249473938718438 前来 0.0015238370979204774 手机 0.0015238370979204774 申请 0.0015238370979204774
乐 0.0015238370979204774 考点 0.0015238370979204774 3008300 0.0015238370979204774
topic 17 : 批发 0.00239548715762794 总监 0.0016227493761107326 车子 0.0016227493761107326 饭店 0.0016227493761107326 伙伴 0.0016227493761107326 直属 0.0016227493761107326 事后 0.0016227493761107326 翰林 0.0016227493761107326 专题片 0.0016227493761107326 装修 8.500116528011858E-4
topic 18 : 期待 0.0024758405052125454
价 0.0016771822702139616 你好 0.0016771822702139616 决定 0.0016771822702139616 助剂 0.0016771822702139616 人员 0.0016771822702139616 雄伟 0.0016771822702139616 只用 0.0016771822702139616 享受 8.785240934230387E-4 四川 8.785240934230387E-4
topic 19 : 房价 0.003103474387899041 底价 0.0023465293925255537 湖南 0.0015895843971520662
凡 0.0015895843971520662 送礼 0.0015895843971520662 恒大 0.0015895843971520662 一生 0.0015895843971520662 代言人 0.0015895843971520662 专车 0.0015895843971520662 大唐 0.0015895843971520662
topic 20 : 企业主 0.0023483068216592073 讲师 0.0023483068216592073
6222021001055293358 0.0023483068216592073 首发 0.0015907884808257222 认购 0.0015907884808257222 请问 0.0015907884808257222 发布 0.0015907884808257222 中午 0.0015907884808257222 开幕 0.0015907884808257222 ⒍ 0.0015907884808257222
topic 21 : 重新 0.002323663793504238 帮忙 0.002323663793504238 85654475 0.002323663793504238
宾 0.002323663793504238
中国 0.0015740948729217052 学历 0.0015740948729217052 ＂ 0.0015740948729217052 温州 0.0015740948729217052 好久 0.0015740948729217052 钢板 0.0015740948729217052
topic 22 : 可口 0.0024103878531605005 形象 0.0024103878531605005 减轻 0.0024103878531605005 高层 0.0016328433994203806 爸爸 0.0016328433994203806 基金 0.0016328433994203806 营业额 0.0016328433994203806 意大利 0.0016328433994203806 正常 0.0016328433994203806 吉智 0.0016328433994203806
topic 23 : 关系 0.0024738647043704987 经营 0.0016758438432589173 美容 0.0016758438432589173 梦想 0.0016758438432589173 喷漆 0.0016758438432589173 肌肤 0.0016758438432589173 刘汉琳 0.0016758438432589173 索菲 0.0016758438432589173 依依 0.0016758438432589173 欢迎 8.778230403549969E-4
topic 24 : 考试 0.0016652129124850035 上班 0.0016652129124850035 金条 0.0016652129124850035
宝 0.0016652129124850035 澳门 0.0016652129124850035 粘贴 0.0016652129124850035 收缩 0.0016652129124850035 18800574923 0.0016652129124850035 豪华 8.722544298507273E-4 老师 8.722544298507273E-4
topic 25 : 长期 0.0030594731215387583 开发区 0.0023132602218538523 低价 0.0023132602218538523 ⑥ 0.0023132602218538523 转告 0.0023132602218538523
新 0.0015670472057536244 得到 0.0015670472057536244 [通] 0.0015670472057536244 融资 0.0015670472057536244 万科 0.0015670472057536244
topic 26 : 开发区 0.002339445985853672 石油 0.0015847859904170036 宁波 0.0015847859904170036 更换 0.0015847859904170036 不用 0.0015847859904170036 会议 0.0015847859904170036 初三 0.0015847859904170036 汽车站 0.0015847859904170036 抽空 0.0015847859904170036 实用 0.0015847859904170036
topic 27 : 代办 0.0016745076281949878 代表 0.0016745076281949878 女性 0.0016745076281949878 13825139678 0.0016745076281949878 承担 0.0016745076281949878 影响力 0.0016745076281949878 13934141989 0.0016745076281949878 槐花 0.0016745076281949878
沐 0.0016745076281949878 过敏 0.0016745076281949878
topic 28 : 婚礼 0.00862991251051426 海尔 0.002210969338193536 电影 0.002210969338193536 小乔 0.002210969338193536 15953174009 0.002210969338193536 茶店 0.002210969338193536 7627292. 0.002210969338193536 15985917304 0.002210969338193536 新余 0.001497753313742578 资料 0.001497753313742578
topic 29 : 【 0.021667908877134323
你 0.015670640394091606 您好 0.01555958017706871 光临 0.014560035429894924
尊敬 0.014337914064526558 现在 0.013005186803638935 】 0.012338823638856411 享受 0.010783976875245571 信用 0.009451250545680523 详情 0.007896402850747108
topic 30 : 西吉 0.0024778195656836033 封顶 0.0016785229090601206 押金 0.0016785229090601206 海外 0.0016785229090601206 澜庭 0.0016785229090601206 账户 0.0016785229090601206 原因 0.0016785229090601206
6222021001036927348 0.0016785229090601206 欧莱雅 0.0016785229090601206 推荐 8.792263106442988E-4

</pre><pre name="code" class="java">

你可能感兴趣的:(LDA主题模型的java代码实现)

【Linux】守护进程与作业控制：进程组、会话与控制终端卜及中 linux进阶 1024程序员节 linux
文章目录1.进程组①组长进程2.会话①概念②创建会话3.控制终端4.作业控制①概念②作业号与jobs命令③作业状态④作业挂起与切回⑤作业相关信号⑥功能理解⑦通过代码将服务守护进程化1.进程组对于一个进程来说，自身一定含有一个PID（进程ID），且一定属于某个进程组；进程组是一个或者多个进程的集合，一个进程组可以包含多个进程；每个进程组有唯一的进程组ID（PGID），类似于PID，是一个正整数，可以
spark任务运行冰火同学 Spark spark 大数据分布式
运行环境在这里插入代码片[root@hadoop000conf]#java-versionjavaversion"1.8.0_144"Java(TM)SERuntimeEnvironment(build1.8.0_144-b01)[root@hadoop000conf]#echo$JAVA_HOME/home/hadoop/app/jdk1.8.0_144[root@hadoop000conf]#
在Vue中使用highlight.js代码高亮技术驱动者 javascript vue.js 前端 js
代码高亮是在网页开发中常见的需求之一，它可以使代码在页面上以不同的颜色或样式进行突出显示，提高可读性。highlight.js是一个流行的JavaScript库，它提供了丰富的语法高亮功能，支持多种编程语言和模板语言。本文将介绍如何在Vue项目中使用highlight.js来实现代码高亮的效果。步骤1：安装highlight.js首先，我们需要安装highlight.js库。在Vue项目的根目录下
自学网络安全（黑客技术）2024年 —100天学习计划白帽黑客cst 学习网络安全 web安全 linux
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
Vue学习笔记3 Jyywww121 vue.js 学习笔记
Vue学习笔记一、单页应用程序&路由介绍1、介绍单页应用程序：所有的功能都在一个页面上实现优点：按需更新性能高，开发效率高，用户体验好缺点：学习成本高，首屏加载慢，不利于SEO应用场景：系统类网站、内部网站、文档类网站、移动端站点路由介绍生活中的路由：设备和ip的映射关系Vue中的路由：路径和组件的映射关系2、路由的基本应用VueRouter的介绍：作用：修改地址栏路径时，切换显示匹配的组件路由的
Vue.js 配置 Babel、Webpack 和 ESLint 轻口味 VUE.JS 入门与实践 vue.js webpack 前端
Vue.js配置Babel、Webpack和ESLint今天我们来聊聊如何配置Babel、Webpack和ESLint，这三个工具在现代前端开发中扮演着重要角色。它们分别负责代码转译、模块打包和代码质量检测，合理配置它们能大大提高项目的开发效率和质量。下面我将详细介绍它们的作用，并提供具体的配置示例。1.Babel配置Babel主要用于将现代JavaScript（ES6+）代码转译为兼容性更好的版
分享一个使用的音频裁剪chrome扩展-Ringtone Maker blogcs 音视频 chrome 前端
一、插件简介铃声制作器是一个简单易用的Chrome扩展，专门用于制作手机铃声。它支持裁剪音频文件的特定片段，并将其下载为WAV格式，方便我们在手机上使用。无论是想从一段长音频中截取精彩部分作为铃声，还是对现有的音频进行个性化剪辑，这个插件都能轻松满足你的需求二、安装方法安装这个插件非常方便，有两种方式可供选择：1.从Chrome网上应用店安装访问Chrome网上应用店页面。点击“添加到Chrome
土壤分析：土壤养分分析_（14）.土壤养分与植物生长的关系 zhubeibei168 农业检测 opencv 人工智能计算机视觉无人机图像处理农业检测
土壤养分与植物生长的关系引言土壤养分是植物生长发育的必要条件之一。植物通过根系从土壤中吸收养分，这些养分对于植物的光合作用、细胞分裂、蛋白质合成等生理过程至关重要。因此，了解土壤养分与植物生长的关系对于提高作物产量、优化土壤管理具有重要意义。本节将详细介绍土壤养分的主要成分、植物对这些养分的需求以及如何通过计算机视觉技术来分析土壤养分与植物生长的关系。土壤养分的主要成分土壤养分主要包括以下几类：宏
深度解析DeepSeek大模型的技术架构与创新点程序员
大家好，我是一名DeepSeek大模型研究者，今天我想和大家分享一下DeepSeek大模型的核心技术架构和创新特点。作为国内领先的开源大模型，DeepSeek在架构设计和技术创新上都有其独特之处。让我们一起来揭开它的神秘面纱！一、基础架构概览DeepSeek的核心架构建立在Transformer的基础上，但进行了多项创新优化。我第一次接触DeepSeek时，就被它在模型结构上的精巧设计所吸引。1.
Html、Markdown的信息提取 DreamBoy_W.W.Y 知识图谱 python
目录一、前言二、核心代码1、解析提取html文档2、提取Markdown文档信息一、前言【python】mistune转换md为HTML，BeautifulSoup解析读取。【python】Html文档，使用BeautifulSoup解析读取。二、核心代码1、解析提取html文档defextract_all_content(soup):content={'text':[]
css块级元素和行内元素区别 serve the people 日常琐问 css 前端
在CSS中，元素可以分为两大类：块级元素（Block-levelelements）和行内元素（Inlineelements）。这两种元素在网页布局中起着不同的作用，主要体现在它们的显示方式、尺寸控制、以及与其他元素的交互方式上。块级元素（Block-levelelements）特点：独占一行：块级元素会独占一行，在其前后会自动添加换行符。可设置宽度和高度：可以设置width和height属性来改变
TypeScript 面试题花铛面试
对类型声明和类型检测的认识：在TypeScript中，通过类型声明来指定变量的类型；指定类型后，当为变量赋值时，TS编译器会自动进行类型检测，检查值是否符合指定的类型，符合则赋值，否则报错。对类型推断的认识：在声明一个变量时，如果有直接赋值，TypeScript会根据值的类型推断出类型注解，这就是类型推断。对类型断言的认识：类型断言：可以用来手动指定一个值的类型。语法为值as类型或者值。TypeS
【MediaTek】 T750 openwrt-23.05编译: error: ISO C++17 does not allow dynamic exception specifications wellnw 功能实现及问题处理 Openwrt openwrt
MediaTekT750T750采用先进的7nm制程，高度集成5G调制解调器和四核ArmCPU，提供较强的功能和配置，设备制造商得以打造精巧的高性能CPE产品，如固定无线接入（FWA）路由器和移动热点。MediaTekT750平台是一款综合的芯片组，集成了5GSoCMT6890、12nm制程的收发器MT6190、ET、GNSS和PMIC等。高度集成的T750平台大幅减少组件数量，为产品设计者提供更
openwrt 桥模式下ebtables转发所有流量到三层，导致DHCP无法获取IP解决方案 wellnw Openwrt
需求需要统计桥模式下的终端设备流量解决方案使用ebtables将二层流量转到三层然后处理，使用以下指令实现ebtables-tbroute-ABROUTING-pipv4-jredirect出现问题桥模式下接入的设备无法获取到IP地址问题分析由于插入的路由规则将所有流量转发到三层，导致DHCP数据无法正常交互解决方案ebtables-tbroute-IBROUTING-pipv4--ip-prot
openwrt 修改路由ttl值 wellnw Openwrt
修改路由器的ttl值iptables-tmangle-IPOSTROUTING1-jTTL--ttl-set65
5G应用创新发展策略研究米朵儿技术屋计算机科学及电子科技技术专栏 5G
【摘要】我国高度重视5G产业发展，积极推进5G赋能垂直行业数字化转型，5G应用发展环境不断完善，5G应用进入加速导入期。主要分析了5G应用发展环境、国内外现状以及产业融合应用发展存在的问题，并给予产业应用创新发展相关建议，推动网络快速部署，加速行业数字化转型升级，实现数字经济社会新变革。【关键词】5G；融合应用；智简网络15G应用发展环境目前全球5G商用发展已初具规模，为5G应用的规模落地和创新发
Python实战：解析labelme标注数据——如何将数据转换为COCO格式程序员杨弋 Python全栈工程师学习指南 python 开发语言
在计算机视觉中，标注数据是非常重要的，而Labelme是一个简单易用的自由标注工具，被广泛应用于图像语义分割、目标检测、实例分割等领域，然而标注数据并不总是以我们需要的格式存在，因此需要进行适当的转换，本文将详细介绍如何将Labelme标注数据转换为COCO格式。首先需要安装相关的Python库，包括labelme、numpy、matplotlib、pillow等，在安装完成后设置数据路径，并读取
论基于UML的需求分析（系统架构师2024新版）桃花键神 uml 需求分析系统架构
声明文章前部分范文来自网络搜集，后部分写作指导、写作建议来自原创。如有侵权联系删除摘要：2021年3月1日至12月20日，我参加了“数据安全访问平台”项目的开发，担任系统分析员的工作。该项目是某行业用户“数据中心二期”建设的主要内容，目标是：建立数据统一访问接口及其使用标准，规范、约束和审计数据应用访问数据库的行为，对数据应用提供强制审计的技术手段。由于该系统是所有应用的基础平台，对系统的可靠性与
从文化到实践：DevOps的基本概念与核心实践详解 Echo_Wish 运维探秘让你快速入坑运维 devops 运维 linux
一、引言：什么是DevOps？在当前快速发展的IT世界中，开发与运维之间的协作显得越来越重要。传统软件开发和运维模式的“隔离”导致了沟通不畅和效率低下，而DevOps应运而生，旨在通过文化和工具的结合，将开发（Development）与运维（Operations）之间的隔阂打破。DevOps不仅是一套技术和工具，更是一种文化、一种思维方式，能够帮助组织更高效、持续地交付高质量的软件。二、DevOp
no matching cipher found问题一次解决经历一张假钞 linux
个人博客地址：nomatchingcipherfound问题一次解决经历|一张假钞的真实世界本次问题解决纯属蒙对了，原理不清楚。当我从一台CentOS7.3的服务器通过ssh登录另外一台CentOS6.8的服务器时出现以下错误信息：[root@192-168-72-75.ssh]#ssh-p65522bddev@192.168.72.208nomatchingcipherfound:clienta
Hadoop 的分布式缓存机制是如何实现的？如何在大规模集群中优化缓存性能？晚夜微雨问海棠呀分布式 hadoop 缓存
Hadoop的分布式缓存机制是一种用于在MapReduce任务中高效分发和访问文件的机制。通过分布式缓存，用户可以将小文件（如配置文件、字典文件等）分发到各个计算节点，从而提高任务的执行效率。分布式缓存的工作原理文件上传：用户将需要缓存的文件上传到HDFS（HadoopDistributedFileSystem）。文件路径可以在作业配置中指定。作业提交：在提交MapReduce作业时，用户可以通过
农业土壤传感器可根据作物周期调整采集频率百态老人人工智能大数据算法
农业土壤传感器确实可以根据作物生长周期动态调整数据采集频率，这一功能主要通过先进的智能算法与传感器技术的深度融合实现。根据的描述，DeepSeek技术能够根据实际需求动态调整传感器的工作模式。例如，在农业物联网场景中，土壤传感器可以结合作物不同生长阶段的需求，灵活调节数据采集频率。这种动态调整不仅能保证监测数据的时效性，还能有效降低传感器能耗，延长电池寿命。具体来说，作物从萌芽期到成熟期对土壤参数
钢铁行业设备智能运维实战：基于DuodooBMS+SKF的减速机全生命周期管理方案邹工转型手札风吟九宵企业信息化 Duodoo开源运维数据库人工智能制造开源
（导语：在钢铁行业"设备即产能"的竞争格局下，某大型钢铁集团通过DuodooBMS+SKFObseverPhoenixAPI系统实现核心设备预测性维护，热轧产线非计划停机减少42%，设备综合效率OEE提升17%）一、钢铁企业设备管理之痛某年产800万吨的钢铁联合企业热轧车间，12台关键减速机连续发生异常磨损事故：2023年Q1因1#摆剪减速机轴承失效导致非计划停机23小时，直接损失超200万元传统
从数据到情感：全维度解析哪吒2的212亿票房之战数据分析
综合目前的数据来看，我分析一下哪吒2的最终票房和冲击第一名可能性。当前态势：票房现状说明目前票房：110亿国内贡献：90%以上（约108亿）海外表现：仅2300万已上映：春节档15天左右三条预测路径分析（含日均计算）A.基础预测线（160-170亿）目标缺口：50-60亿时间周期：45天具体路径：第一阶段（15天）日均要求：2亿阶段贡献：30亿工作日表现：1.5亿/天周末表现：3亿/天第二阶段（1
/etc/profile、/etc/bashrc、~/.bash_profile、~/.bashrc的区别 u014093837 linux
/etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.并从/etc/profile.d目录的配置文件中搜集shell的设置./etc/bashrc:为每一个运行bashshell的用户执行此文件.当bashshell被打开时,该文件被读取.~/.bash_profile:每个用户都可使用该文件输入专用于自己使用的shell信息,当用户登录时,该文件仅仅执行
揭秘！100 个 Python 常用易错知识点的避坑指南 tekin Python python Python 易错点 Python 编程避坑 Python 知识总结 Python 基础与进阶 Python 代码优化 Python 常见错误解析
目录简介1.类方法命名中的下划线2.函数形参中的*和**3.函数实参中的*4.变量作用域5.浅拷贝和深拷贝6.默认参数的陷阱7.迭代器和生成器相关迭代器使用后耗尽生成器表达式和列表推导式混淆8.异常处理相关捕获异常范围过大异常处理中的finally子句9.多线程和多进程相关全局解释器锁（GIL）误解多线程性能提升多进程中的资源共享问题10.字符串编码问题编码和解码错误11.模块导入相关循环导入问题
角色访问控制（RBAC） IT源哥架构设计和软件设计 user session actor uml access class
角色访问控制（RBAC）引入了Role的概念,目的是为了隔离User(即动作主体，Subject)与Privilege(权限，表示对Resource的一个操作，即Operation+Resource)。Role作为一个用户(User)与权限(Privilege)的代理层，解耦了权限和用户的关系，所有的授权应该给予Role而不是直接给User或Group。Privilege是权限颗粒，由Operat
Java学习教程，从入门到精通，Java 正则表达式知识点及案例代码（120）知识分享小能手编程语言如门 Java 大数据 java 学习正则表达式 jdbc 开发语言数据库 java后端开发
Java正则表达式知识点及案例代码一、正则表达式简介正则表达式（RegularExpression，简称regex）是一种用于描述字符串模式的强大工具。它可以用来进行字符串的匹配、查找、替换等操作。Java提供了java.util.regex包来支持正则表达式。二、Java正则表达式语法1.基本语法元字符描述.匹配除换行符以外的任意字符\d匹配数字，等价于[0-9]\D匹配非数字，等价于[^0-9
CSS 核心技术知识点详解：从基础到进阶秋水为渡前端 css
本文基于图中提供的17个CSS核心知识点展开讲解，涵盖基础概念、布局原理、实战技巧及性能优化等内容。每个知识点均附代码示例和原理分析，帮助读者系统性掌握CSS核心能力。1.选择器作用：定位HTML元素并应用样式。常见类型：类选择器：.class-name{...}ID选择器：#id-name{...}属性选择器：[type="text"]{...}代码示例：.button{color:red;}/
红队视角出发的k8s敏感信息收集——持久化存储与数据泄露周周的奇妙编程 kubernetes 容器云原生
在Kubernetes集群中，持久化存储卷如同数据的保险箱，承载着应用运行所必需的各类敏感信息。然而，从红队视角出发，这些存储卷也可能成为攻击者觊觎的目标。通过巧妙地利用配置不当或已知漏洞，攻击者能够从中收集到包括密钥、访问凭证在内的大量敏感数据，进而导致数据泄露事件的发生。攻击链示例：攻击者通过容器逃逸进入Pod→发现挂载的EBS卷并创建快照→共享快照至攻击者AWS账户→还原快照窃取数据库凭据→
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p