qq_26562641

数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现(上)

(update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ )

本文要点如下：

对newsgroup文档集进行预处理，按照DF法及SVD分解法抽取特征词，实现降维

实现了K-Means，MBSAS，DBSCAN三种聚类算法
用weka工具进行newsgroup文档聚类

计算各种算法聚类的熵，进行算法评价

1、newsgroup文档集预处理

newsgroup是常用的数据挖掘实验数据。文本预处理主要包括单词分片、去除标点等无关符号、去停用词等等，相关详细介绍见我的另一篇博文数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现（上），此处只给出文本预处理和向量化不同的部分代码。

文本预处理类DataPreProcess.java

[java]  view plain copy   
     
    
 package com.pku.yangliu;  
   
 import java.io.BufferedReader;  
 import java.io.File;  
 import java.io.FileReader;  
 import java.io.FileWriter;  
 import java.io.IOException;  
 import java.util.ArrayList;  
   
 /**  
  * Newsgroups文档集预处理类 
  */  
 public class DataPreProcess {  
       
     /**输入文件调用处理数据函数 
      * @param strDir newsgroup文件目录的绝对路径 
      * @throws IOException  
      */  
     public void doProcess(String strDir) throws IOException{  
         File fileDir = new File(strDir);  
         if(!fileDir.exists()){  
             System.out.println("File not exist:" + strDir);  
             return;  
         }  
         String subStrDir = strDir.substring(strDir.lastIndexOf('/'));  
         String dirTarget = strDir + "/../../processedSample_includeNotSpecial"+subStrDir;  
         File fileTarget = new File(dirTarget);  
         if(!fileTarget.exists()){//注意processedSample需要先建立目录建出来，否则会报错，因为母目录不存在  
             fileTarget.mkdir();  
         }  
         File[] srcFiles = fileDir.listFiles();  
         String[] stemFileNames = new String[srcFiles.length];  
         for(int i = 0; i < srcFiles.length; i++){  
             String fileFullName = srcFiles[i].getCanonicalPath();  
             String fileShortName = srcFiles[i].getName();  
             if(!new File(fileFullName).isDirectory()){//确认子文件名不是目录如果是可以再次递归调用  
                 System.out.println("Begin preprocess:"+fileFullName);  
                 StringBuilder stringBuilder = new StringBuilder();  
                 stringBuilder.append(dirTarget + "/" + fileShortName);  
                 createProcessFile(fileFullName, stringBuilder.toString());  
                 stemFileNames[i] = stringBuilder.toString();  
             }  
             else {  
                 fileFullName = fileFullName.replace("\\","/");  
                 doProcess(fileFullName);  
             }  
         }  
         //下面调用stem算法  
         if(stemFileNames.length > 0 && stemFileNames[0] != null){  
             Stemmer.porterMain(stemFileNames);  
         }  
     }  
       
     /**进行文本预处理生成目标文件 
      * @param srcDir 源文件文件目录的绝对路径 
      * @param targetDir 生成的目标文件的绝对路径 
      * @throws IOException  
      */  
     private static void createProcessFile(String srcDir, String targetDir) throws IOException {  
         // TODO Auto-generated method stub  
         FileReader srcFileReader = new FileReader(srcDir);  
         FileReader stopWordsReader = new FileReader("F:/DataMiningSample/stopwords.txt");  
         FileWriter targetFileWriter = new FileWriter(targetDir);      
         BufferedReader srcFileBR = new BufferedReader(srcFileReader);//装饰模式  
         BufferedReader stopWordsBR = new BufferedReader(stopWordsReader);  
         String line, resLine, stopWordsLine;  
         //用stopWordsBR够着停用词的ArrayList容器  
         ArrayList<String> stopWordsArray = new ArrayList<String>();  
         while((stopWordsLine = stopWordsBR.readLine()) != null){  
             if(!stopWordsLine.isEmpty()){  
                 stopWordsArray.add(stopWordsLine);  
             }  
         }  
         while((line = srcFileBR.readLine()) != null){  
             resLine = lineProcess(line,stopWordsArray);  
             if(!resLine.isEmpty()){  
                 //按行写，一行写一个单词  
                 String[] tempStr = resLine.split(" ");//\s  
                 for(int i = 0; i < tempStr.length; i++){  
                     if(!tempStr[i].isEmpty()){  
                         targetFileWriter.append(tempStr[i]+"\n");  
                     }  
                 }  
             }  
         }  
         targetFileWriter.flush();  
         targetFileWriter.close();  
         srcFileReader.close();  
         stopWordsReader.close();  
         srcFileBR.close();  
         stopWordsBR.close();      
     }  
       
     /**对每行字符串进行处理，主要是词法分析、去停用词和stemming 
      * @param line 待处理的一行字符串 
      * @param ArrayList<String> 停用词数组 
      * @return String 处理好的一行字符串，是由处理好的单词重新生成，以空格为分隔符 
      * @throws IOException  
      */  
     private static String lineProcess(String line, ArrayList<String> stopWordsArray) throws IOException {  
         // TODO Auto-generated method stub  
         //step1 英文词法分析，去除数字、连字符、标点符号、特殊字符，所有大写字母转换成小写，可以考虑用正则表达式  
         String res[] = line.split("[^a-zA-Z]");  
         //这里要小心，防止把有单词中间有数字和连字符的单词 截断了，但是截断也没事  
         String resString = new String();  
         //step2去停用词  
         //step3stemming,返回后一起做  
         for(int i = 0; i < res.length; i++){  
             if(!res[i].isEmpty() && !stopWordsArray.contains(res[i].toLowerCase())){  
                 resString += " " + res[i].toLowerCase() + " ";  
             }  
         }  
         return resString;  
     }  
   
     /** 
      * @param args 
      * @throws IOException  
      */  
     public void BPPMain(String[] args) throws IOException {  
         // TODO Auto-generated method stub  
         DataPreProcess dataPrePro = new DataPreProcess();  
         dataPrePro.doProcess("F:/DataMiningSample/orginSample");  
   
     }  
   
 }  

文本向量化表示主要基于TF-IDF值 ComputeWordsVector.java

[java]  view plain copy   
     
    
 package com.pku.yangliu;  
 import java.io.BufferedReader;  
 import java.io.File;  
 import java.io.FileReader;  
 import java.io.FileWriter;  
 import java.io.IOException;  
 import java.util.HashSet;  
 import java.util.SortedMap;  
 import java.util.Map;  
 import java.util.Set;  
 import java.util.SortedSet;  
 import java.util.TreeMap;  
 import java.util.Iterator;  
 import java.util.TreeSet;  
   
 /**计算文档的属性向量，将所有文档向量化 
  * 
  */  
 public class ComputeWordsVector {  
       
     /**计算文档的TF-IDF属性向量,返回Map<文件名，Map<特征词，TF-IDF值>> 
      * @param testSampleDir 处理好的聚类样本测试样例集合 
      * @return Map<String,Map<String,Double>> 所有测试样例的属性向量构成的map 
      * @throws IOException  
      */  
     public Map<String,Map<String,Double>> computeTFMultiIDF(String testSampleDir) throws IOException{  
         String word;  
         Map<String,Map<String,Double>> allTestSampleMap = new TreeMap<String,Map<String,Double>>();  
         Map<String, Double> idfPerWordMap = computeIDF(testSampleDir);  
         Map<String,Double> TFPerDocMap = new TreeMap<String,Double>();//计算每篇文档中含有各特征词数量  
         File[] samples = new File(testSampleDir).listFiles();  
         System.out.println("the total number of test files is" + samples.length);  
         for(int i = 0; i < samples.length; i++){  
             TFPerDocMap.clear();  
             FileReader samReader = new FileReader(samples[i]);  
             BufferedReader samBR = new BufferedReader(samReader);  
             Double wordSumPerDoc = 0.0;//计算每篇文档的总词数  
             while((word = samBR.readLine()) != null){  
                 if(!word.isEmpty()){  
                     wordSumPerDoc++;  
                     if(TFPerDocMap.containsKey(word)){  
                         Double count =  TFPerDocMap.get(word);  
                         TFPerDocMap.put(word, count + 1.0);  
                     }  
                     else {  
                         TFPerDocMap.put(word, 1.0);  
                     }  
                 }  
             }  
   
             Double maxCount = 0.0, wordWeight;//记录出现次数最多的词出现的次数，用做归一化  
             Set<Map.Entry<String, Double>> tempTF = TFPerDocMap.entrySet();  
             for(Iterator<Map.Entry<String, Double>> mt = tempTF.iterator(); mt.hasNext();){  
                 Map.Entry<String, Double> me = mt.next();  
                 if(me.getValue() > maxCount) maxCount = me.getValue();  
             }  
             for(Iterator<Map.Entry<String, Double>> mt = tempTF.iterator(); mt.hasNext();){  
                 Map.Entry<String, Double> me = mt.next();  
                 Double IDF = Math.log(samples.length / idfPerWordMap.get(me.getKey())) / Math.log(10);  
                 wordWeight =  (me.getValue() / maxCount) * IDF;  
                 TFPerDocMap.put(me.getKey(), wordWeight);  
             }  
             TreeMap<String,Double> tempMap = new TreeMap<String,Double>();  
             tempMap.putAll(TFPerDocMap);  
             allTestSampleMap.put(samples[i].getName(), tempMap);  
         }  
         //printTestSampleMap(allTestSampleMap);  
         return allTestSampleMap;  
     }  
       
     /**输出测试样例map内容，用于测试 
      * @param SortedMap<String,Double> 属性词典 
      * @throws IOException  
      */  
     void printTestSampleMap(Map<String,Map<String,Double>> allTestSampleMap) throws IOException {  
         // TODO Auto-generated method stub  
         File outPutFile = new File("F:/DataMiningSample/KmeansClusterResult/allTestSampleMap.txt");  
         FileWriter outPutFileWriter = new FileWriter(outPutFile);  
         Set<Map.Entry<String,Map<String,Double>>> allWords = allTestSampleMap.entrySet();  
         for(Iterator<Map.Entry<String,Map<String,Double>>> it = allWords.iterator(); it.hasNext();){  
             Map.Entry<String,Map<String,Double>> me = it.next();  
             outPutFileWriter.append(me.getKey() + " ");  
             Set<Map.Entry<String,Double>> vecSet = me.getValue().entrySet();  
             for(Iterator<Map.Entry<String, Double>> jt = vecSet.iterator(); jt.hasNext();){  
                 Map.Entry<String, Double> ne = jt.next();  
                 outPutFileWriter.append(ne.getKey() + " "+ ne.getValue() + " ");  
             }  
             outPutFileWriter.append("\n");  
             outPutFileWriter.flush();  
         }  
         outPutFileWriter.close();  
     }  
       
     /**统计每个词的总的出现次数，返回出现次数大于n次的词汇构成最终的属性词典 
      * @param strDir 处理好的newsgroup文件目录的绝对路径 
      * @throws IOException  
      */  
     public SortedMap<String,Double> countWords(String strDir,Map<String, Double> wordMap) throws IOException{  
         File sampleFile = new File(strDir);  
         File [] sampleDir = sampleFile.listFiles();  
         String word;  
         for(int j = 0; j < sampleDir.length; j++){  
             File[] sample = sampleDir[j].listFiles();  
             for(int i = 0; i < sample.length; i++){  
                 if(sample[i].getName().contains("stemed")){  
                     FileReader samReader = new FileReader(sample[i]);  
                     BufferedReader samBR = new BufferedReader(samReader);  
                     while((word = samBR.readLine()) != null){  
                         if(!word.isEmpty() && wordMap.containsKey(word)){  
                             double count = wordMap.get(word) + 1;  
                             wordMap.put(word, count);  
                         }  
                         else {  
                             wordMap.put(word, 1.0);  
                         }  
                     }  
                 }     
             }  
         }  
       
         //去除停用词后，先用DF法选取特征词，后面再加入特征词的选取算法  
         SortedMap<String,Double> newWordMap = new TreeMap<String,Double>();  
         Set<Map.Entry<String,Double>> allWords = wordMap.entrySet();  
         for(Iterator<Map.Entry<String,Double>> it = allWords.iterator(); it.hasNext();){  
             Map.Entry<String, Double> me = it.next();  
             if(me.getValue() > 100){//DF法降维  
                 newWordMap.put(me.getKey(),me.getValue());  
             }  
         }  
         return newWordMap;    
     }  
   
     /**计算IDF，即属性词典中每个词在多少个文档中出现过 
      * @param testSampleDir 聚类算法测试样本所在目录 
      * @return 单词的IDFmap 格式为SortedMap<String,Double> 即<单词，包含该单词的文档数> 
      * @throws IOException  
      */  
     Map<String,Double> computeIDF(String testSampleDir) throws IOException {  
         // TODO Auto-generated method stub  
         Map<String,Double> IDFPerWordMap = new TreeMap<String,Double>();  
         Set<String> alreadyCountWord = new HashSet<String>();//记下当前已经遇到过的该文档中的词  
         String word;  
         File[] samples = new File(testSampleDir).listFiles();  
         for(int i = 0; i < samples.length; i++){  
             alreadyCountWord.clear();  
             FileReader tsReader = new FileReader(samples[i]);  
             BufferedReader tsBR = new BufferedReader(tsReader);  
             while((word = tsBR.readLine()) != null){  
                 if(!alreadyCountWord.contains(word)){  
                     if(IDFPerWordMap.containsKey(word)){  
                         IDFPerWordMap.put(word, IDFPerWordMap.get(word) + 1.0);  
                     }  
                     else IDFPerWordMap.put(word, 1.0);  
                     alreadyCountWord.add(word);                   
                 }  
             }  
         }  
         return IDFPerWordMap;  
     }  
       
     /**创建聚类算法的测试样例集，主要是过滤出只含有特征词的文档写到一个目录下 
      * @param String srcDir 源目录，已经经过预处理但还没有过滤非特征词的文档目录 
      * @param String destDir 目的目录，聚类算法的测试样例目录 
      * @return String[] 创建测试样例集中特征词数组 
      * @throws IOException  
      */  
     String[] createTestSamples( String srcDir, String destDir) throws IOException {  
         // TODO Auto-generated method stub  
         SortedMap<String,Double> wordMap = new TreeMap<String,Double>();  
         wordMap = countWords(srcDir, wordMap);  
         System.out.println("special words map sizes:" + wordMap.size());  
         String word, testSampleFile;  
         File[] sampleDir = new File(srcDir).listFiles();  
         for(int i = 0; i < sampleDir.length; i++){  
             File[] sample = sampleDir[i].listFiles();  
             for(int j = 0;j < sample.length; j++){     
                 if(sample[j].getName().contains("stemed")){  
                     testSampleFile = destDir + sampleDir[i].getName()+"_"+sample[j].getName();  
                     FileReader samReader = new FileReader(sample[j]);  
                     BufferedReader samBR = new BufferedReader(samReader);  
                     FileWriter tsWriter = new FileWriter(new File(testSampleFile));  
                     while((word = samBR.readLine()) != null){  
                         if(wordMap.containsKey(word)){  
                             tsWriter.append(word + "\n");  
                         }  
                     }  
                     tsWriter.flush();  
                     tsWriter.close();     
                 }  
             }  
         }  
         //返回属性词典  
         String [] terms = new String[wordMap.size()];  
         int i = 0;  
         Set<Map.Entry<String,Double>> allWords = wordMap.entrySet();  
         for(Iterator<Map.Entry<String,Double>> it = allWords.iterator(); it.hasNext();){  
             Map.Entry<String, Double> me = it.next();  
             terms[i] = me.getKey();  
             i++;  
         }  
         return terms;  
     }  
       
     /**评估函数根据聚类结果文件统计熵和混淆矩阵 
      * @param clusterResultFile 聚类结果文件 
      * @param K 聚类数目 
      * @return double 聚类结果的熵值 
      * @throws IOException  
      */  
     double evaluateClusterRes(String clusterResultFile, int K) throws IOException {  
         // TODO Auto-generated method stub  
         Map<String,String> rightCate = new TreeMap<String,String>();  
         Map<String,String> resultCate = new TreeMap<String,String>();  
         FileReader crReader = new FileReader(clusterResultFile);  
         BufferedReader crBR = new BufferedReader(crReader);  
         String[] s;  
         String line;  
         while((line = crBR.readLine()) != null){  
             s = line.split(" ");  
             resultCate.put(s[0], s[1]);   
             //再把s[0]用_分片  
             rightCate.put(s[0], s[0].split("_")[0]);  
         }  
         return computeEntropyAndConfuMatrix(rightCate,resultCate,K);//返回熵  
     }  
       
     /**计算混淆矩阵并且输出，返回熵 
      * @param rightCate 正确类目对应map 
      * @param resultCate 聚类结果对应map 
      * @return double 返回聚类的熵 
      * @throws IOException  
      */  
     private double computeEntropyAndConfuMatrix(Map<String, String> rightCate,  
             Map<String, String> resultCate, int K) {  
         // TODO Auto-generated method stub    
         int[][] confusionMatrix = new int[K][20];//K行20列，[i,j]表示聚类i中属于类目j的文件数  
         //首先求出类目对应的数组索引  
         SortedSet<String> cateNames = new TreeSet<String>();  
         Set<Map.Entry<String, String>> rightCateSet = rightCate.entrySet();  
         for(Iterator<Map.Entry<String, String>> it = rightCateSet.iterator(); it.hasNext();){  
             Map.Entry<String, String> me = it.next();  
             cateNames.add(me.getValue());  
         }  
         String[] cateNamesArray = cateNames.toArray(new String[0]);  
         Map<String,Integer> cateNamesToIndex = new TreeMap<String,Integer>();  
         for(int i = 0; i < cateNamesArray.length; i++){  
             cateNamesToIndex.put(cateNamesArray[i],i);  
         }  
         for(Iterator<Map.Entry<String, String>> it = rightCateSet.iterator(); it.hasNext();){  
             Map.Entry<String, String> me = it.next();  
             confusionMatrix[Integer.parseInt(resultCate.get(me.getKey()))][cateNamesToIndex.get(me.getValue())]++;  
         }  
         //输出混淆矩阵  
         double [] clusterSum = new double[K];//记录每个聚类的文件数  
         double[] everyClusterEntropy = new double[K];//记录每个聚类的熵  
         double clusterEntropy = 0;  
         System.out.print("    ");  
         for(int i = 0; i < 20; i++){  
             System.out.print(i + "    ");  
         }  
         System.out.println();  
         for(int i = 0; i < K; i++){  
             System.out.print(i + "    ");  
             for(int j = 0; j < 20; j++){  
                 clusterSum[i] += confusionMatrix[i][j];  
                 System.out.print(confusionMatrix[i][j]+"    ");  
             }  
             System.out.println();  
         }  
         System.out.println();  
         for(int i = 0; i < K; i++){  
             if(clusterSum[i] != 0){  
                 for(int j = 0; j < 20; j++){  
                      double p = (double)confusionMatrix[i][j]/clusterSum[i];  
                      if(p != 0){  
                          everyClusterEntropy[i] += -p * Math.log(p);  
                      }  
                 }  
                 clusterEntropy += clusterSum[i]/(double)rightCate.size() * everyClusterEntropy[i];  
             }  
         }  
         return clusterEntropy;  
     }  
   
 }  

2、K-means算法

K-means算法是非常经典的聚类算法。其算法思路是：先选K个初始聚类点作为初始中心点，然后计算其他所有点到K个聚类点的距离做聚类，将点分到最近的聚类，聚完类后中心点发生变化了，于是更新中心点。然后再计算其他所有点到这K个中心点的距离重新聚类，中心点又会发生变化，如此迭代下去。其伪代码如下：

K-means算法的实现有以下关键点：

初始点的选择策略：随机选、均匀抽样、最大最小法等
距离的度量 1-余弦相似度，欧式距离，1-向量内积，测试发现1-余弦相似度效果最好，而1-向量内积速度最快。
中心点的计算向量各维取评价
算法停止条件计算准则函数及设置最大迭代次数
空聚类的处理注意空聚类导致的程序bug

K-means算法实现类KmeansCluster.java

[java]  view plain copy   
     
    
 package com.pku.yangliu;  
 import java.io.FileWriter;  
 import java.io.IOException;  
 import java.util.Iterator;  
 import java.util.Map;  
 import java.util.Set;  
 import java.util.TreeMap;  
 import java.util.Vector;  
   
 /**Kmeans聚类算法的实现类，将newsgroups文档集聚成10类、20类、30类 
  * 算法结束条件:当每个点最近的聚类中心点就是它所属的聚类中心点时，算法结束 
  * 
  */  
   
 public class KmeansCluster {  
       
     /**Kmeans算法主过程 
      * @param Map<String, Map<String, Double>> allTestSampleMap 聚类算法测试样本map 
      * @param int K 聚类的数量 
      * @return Map<String,Integer> 聚类的结果  即<文件名，聚类完成后所属的类别标号> 
      * @throws IOException  
      */  
     private Map<String, Integer> doProcess(  
             Map<String, Map<String, Double>> allTestSampleMap, int K) {  
         // TODO Auto-generated method stub  
         //0、首先获取allTestSampleMap所有文件名顺序组成的数组  
         String[] testSampleNames = new String[allTestSampleMap.size()];  
         int count = 0, tsLength = allTestSampleMap.size();  
         Set<Map.Entry<String, Map<String, Double>>> allTestSampeleMapSet = allTestSampleMap.entrySet();  
         for(Iterator<Map.Entry<String, Map<String, Double>>> it = allTestSampeleMapSet.iterator(); it.hasNext(); ){  
             Map.Entry<String, Map<String, Double>> me = it.next();  
             testSampleNames[count++] = me.getKey();  
         }  
         //1、初始点的选择算法是随机选择或者是均匀分开选择，这里采用后者  
         Map<Integer, Map<String, Double>> meansMap = getInitPoint(allTestSampleMap, K);//保存K个中心点  
         double [][] distance = new double[tsLength][K];//distance[i][j]记录点i到聚类中心j的距离  
         //2、初始化K个聚类  
         int [] assignMeans = new int[tsLength];//记录所有点属于的聚类序号，初始化全部为0  
         Map<Integer, Vector<Integer>> clusterMember = new TreeMap<Integer,Vector<Integer>>();//记录每个聚类的成员点序号  
         Vector<Integer> mem = new Vector<Integer>();  
         int iterNum = 0;//迭代次数  
         while(true){  
             System.out.println("Iteration No." + (iterNum++) + "----------------------");  
             //3、计算每个点和每个聚类中心的距离  
             for(int i = 0; i < tsLength; i++){  
                 for(int j = 0; j < K; j++){  
                     distance[i][j] = getDistance(allTestSampleMap.get(testSampleNames[i]),meansMap.get(j));  
                 }  
             }  
             //4、找出每个点最近的聚类中心  
             int[] nearestMeans = new int[tsLength];  
             for(int i = 0; i < tsLength; i++){  
                 nearestMeans[i] = findNearestMeans(distance, i);  
             }  
             //5、判断当前所有点属于的聚类序号是否已经全部是其离得最近的聚类，如果是或者达到最大的迭代次数，那么结束算法  
             int okCount = 0;  
             for(int i = 0; i <tsLength; i++){  
                 if(nearestMeans[i] == assignMeans[i]) okCount++;  
             }  
             System.out.println("okCount = " + okCount);  
             if(okCount == tsLength || iterNum >= 10) break;  
             //6、如果前面条件不满足，那么需要重新聚类再进行一次迭代，需要修改每个聚类的成员和每个点属于的聚类信息  
             clusterMember.clear();  
             for(int i = 0; i < tsLength; i++){  
                 assignMeans[i] = nearestMeans[i];  
                 if(clusterMember.containsKey(nearestMeans[i])){  
                     clusterMember.get(nearestMeans[i]).add(i);    
                 }  
                 else {  
                     mem.clear();  
                     mem.add(i);  
                     Vector<Integer> tempMem = new Vector<Integer>();  
                     tempMem.addAll(mem);  
                     clusterMember.put(nearestMeans[i], tempMem);  
                 }  
             }  
             //7、重新计算每个聚类的中心点!  
             for(int i = 0; i < K; i++){  
                 if(!clusterMember.containsKey(i)){//注意kmeans可能产生空聚类  
                     continue;  
                 }  
                 Map<String, Double> newMean = computeNewMean(clusterMember.get(i), allTestSampleMap, testSampleNames);  
                 Map<String, Double> tempMean = new TreeMap<String, Double>();  
                 tempMean.putAll(newMean);  
                 meansMap.put(i, tempMean);  
             }  
         }  
         //8、形成聚类结果并且返回  
         Map<String, Integer> resMap = new TreeMap<String, Integer>();  
         for(int i = 0; i < tsLength; i++){  
             resMap.put(testSampleNames[i], assignMeans[i]);  
         }  
         return resMap;  
     }  
   
     /**计算当前聚类新的中心，采用向量平均 
      * @param clusterM 该点到所有聚类中心的距离 
      * @param allTestSampleMap 所有测试样例的<文件名，向量>构成的map 
      * @param testSampleNames 所有测试样例文件名构成的数组 
      * @return Map<String, Double> 新的聚类中心的向量 
      * @throws IOException  
      */  
     private Map<String, Double> computeNewMean(Vector<Integer> clusterM,  
             Map<String, Map<String, Double>> allTestSampleMap,  
             String[] testSampleNames) {  
         // TODO Auto-generated method stub  
         double memberNum = (double)clusterM.size();  
         Map<String, Double> newMeanMap = new TreeMap<String,Double>();  
         Map<String, Double> currentMemMap = new TreeMap<String,Double>();  
         for(Iterator<Integer> it = clusterM.iterator(); it.hasNext();){  
             int me = it.next();  
             currentMemMap = allTestSampleMap.get(testSampleNames[me]);  
             Set<Map.Entry<String, Double>> currentMemMapSet = currentMemMap.entrySet();  
             for(Iterator<Map.Entry<String, Double>> jt = currentMemMapSet.iterator(); jt.hasNext();){  
                 Map.Entry<String, Double> ne = jt.next();  
                 if(newMeanMap.containsKey(ne.getKey())){  
                     newMeanMap.put(ne.getKey(), newMeanMap.get(ne.getKey()) + ne.getValue());  
                 }   
                 else {  
                     newMeanMap.put(ne.getKey(), ne.getValue());  
                 }  
             }  
         }  
           
         Set<Map.Entry<String, Double>> newMeanMapSet = newMeanMap.entrySet();  
             for(Iterator<Map.Entry<String, Double>> jt = newMeanMapSet.iterator(); jt.hasNext();){  
                 Map.Entry<String, Double> ne = jt.next();  
                 newMeanMap.put(ne.getKey(), newMeanMap.get(ne.getKey()) / memberNum);     
         }  
         return newMeanMap;  
     }  
   
     /**找出距离当前点最近的聚类中心 
      * @param double[][] 点到所有聚类中心的距离 
      * @return i 最近的聚类中心的序 号 
      * @throws IOException  
      */  
     private int findNearestMeans(double[][] distance,int m) {  
         // TODO Auto-generated method stub  
         double minDist = 10;  
         int j = 0;  
         for(int i = 0; i < distance[m].length; i++){  
             if(distance[m][i] < minDist){  
                 minDist = distance[m][i];  
                 j = i;  
             }  
         }  
         return j;  
     }  
   
   
     /**计算两个点的距离 
      * @param map1 点1的向量map 
      * @param map2 点2的向量map 
      * @return double 两个点的欧式距离 
      */  
     private double getDistance(Map<String, Double> map1, Map<String, Double> map2) {  
         // TODO Auto-generated method stub  
         return 1 - computeSim(map1,map2);  
     }  
       
     /**计算两个文本的相似度 
      * @param testWordTFMap 文本1的<单词,词频>向量 
      * @param trainWordTFMap 文本2<单词,词频>向量 
      * @return Double 向量之间的相似度 以向量夹角余弦计算或者向量内积计算（效果相当而速度更快） 
      * @throws IOException  
      */  
     private double computeSim(Map<String, Double> testWordTFMap,  
             Map<String, Double> trainWordTFMap) {  
         // TODO Auto-generated method stub  
         double mul = 0;//, testAbs = 0, trainAbs = 0;  
         Set<Map.Entry<String, Double>> testWordTFMapSet = testWordTFMap.entrySet();  
         for(Iterator<Map.Entry<String, Double>> it = testWordTFMapSet.iterator(); it.hasNext();){  
             Map.Entry<String, Double> me = it.next();  
             if(trainWordTFMap.containsKey(me.getKey())){  
                 mul += me.getValue()*trainWordTFMap.get(me.getKey());  
             }  
             //testAbs += me.getValue() * me.getValue();  
         }  
         //testAbs = Math.sqrt(testAbs);  
           
         /*Set<Map.Entry<String, Double>> trainWordTFMapSet = trainWordTFMap.entrySet(); 
         for(Iterator<Map.Entry<String, Double>> it = trainWordTFMapSet.iterator(); it.hasNext();){ 
             Map.Entry<String, Double> me = it.next(); 
             trainAbs += me.getValue()*me.getValue(); 
         } 
         trainAbs = Math.sqrt(trainAbs);*/  
         return mul ;/// (testAbs * trainAbs);  
     }  
   
     /**获取kmeans算法迭代的初始点 
      * @param k 聚类的数量 
      * @param Map<String, Map<String, Double>> allTestSampleMap 所有测试样例的<文件名，向量>构成的map 
      * @return Map<Integer, Map<String, Double>> 初始中心点的Map 
      * @throws IOException  
      */  
     private Map<Integer, Map<String, Double>> getInitPoint(Map<String, Map<String, Double>> allTestSampleMap, int K) {  
         // TODO Auto-generated method stub  
         int count = 0, i = 0;  
         Map<Integer, Map<String, Double>> meansMap = new TreeMap<Integer, Map<String, Double>>();//保存K个聚类中心点向量  
         System.out.println("本次聚类的初始点对应的文件为：");  
         Set<Map.Entry<String, Map<String,Double>>> allTestSampleMapSet = allTestSampleMap.entrySet();  
         for(Iterator<Map.Entry<String, Map<String,Double>>> it = allTestSampleMapSet.iterator();it.hasNext();){  
             Map.Entry<String, Map<String,Double>> me = it.next();  
             if(count == i * allTestSampleMapSet.size() / K){  
                 meansMap.put(i, me.getValue());  
                 System.out.println(me.getKey() + " map size is " + me.getValue().size());  
                 i++;  
             }  
             count++;  
         }  
         return meansMap;  
     }  
   
     /**输出聚类结果到文件中 
      * @param kmeansClusterResultFile 输出文件目录 
      * @param kmeansClusterResult 聚类结果 
      * @throws IOException  
      */  
     private void printClusterResult(Map<String, Integer> kmeansClusterResult, String kmeansClusterResultFile) throws IOException {  
         // TODO Auto-generated method stub  
         FileWriter resWriter = new FileWriter(kmeansClusterResultFile);  
         Set<Map.Entry<String,Integer>> kmeansClusterResultSet = kmeansClusterResult.entrySet();  
         for(Iterator<Map.Entry<String,Integer>> it = kmeansClusterResultSet.iterator(); it.hasNext(); ){  
             Map.Entry<String, Integer> me = it.next();  
             resWriter.append(me.getKey() + " " + me.getValue() + "\n");  
         }  
         resWriter.flush();  
         resWriter.close();  
     }  
       
     public void KmeansClusterMain(String testSampleDir) throws IOException {  
         //首先计算文档TF-IDF向量，保存为Map<String,Map<String,Double>> 即为Map<文件名，Map<特征词，TF-IDF值>>  
         ComputeWordsVector computeV = new ComputeWordsVector();  
         int[] K = {10, 20 ,30};  
         Map<String,Map<String,Double>> allTestSampleMap = computeV.computeTFMultiIDF(testSampleDir);  
         for(int i = 0; i < K.length; i++){  
             System.out.println("开始聚类，聚成" + K[i] + "类");  
             String KmeansClusterResultFile = "F:/DataMiningSample/KmeansClusterResult/";  
             Map<String,Integer> KmeansClusterResult = new TreeMap<String, Integer>();  
             KmeansClusterResult = doProcess(allTestSampleMap, K[i]);  
             KmeansClusterResultFile += K[i];  
             printClusterResult(KmeansClusterResult,KmeansClusterResultFile);  
             System.out.println("The Entropy for this Cluster is " + computeV.evaluateClusterRes(KmeansClusterResultFile, K[i]));  
         }  
     }  
 }  

聚类器主类ClusterMain.java

[java]  view plain copy   
     
    
 package com.pku.yangliu;  
   
 import java.io.IOException;  
 import java.text.SimpleDateFormat;  
   
 /**聚类器主类，提供主函数入口 
  * 
  */  
 public class ClusterMain {  
   
     /** 
      * @param args 
      * @throws IOException  
      */  
     public static void main(String[] args) throws IOException {  
         // TODO Auto-generated method stub  
         DataPreProcess DataPP = new DataPreProcess();  
         ComputeWordsVector computeV = new ComputeWordsVector();  
         //KmeansSVDCluster kmeansCluster1 = new KmeansSVDCluster();  
         KmeansCluster kmeansCluster2 = new KmeansCluster();  
         DataPP.BPPMain(args);//数据预处理,注意如果已经完成数据预处理，此函数可以不执行  
         //下面创建聚类算法的测试样例集合  
         String srcDir = "F:/DataMiningSample/processedSample_includeNotSpecial/";  
         String destDir = "F:/DataMiningSample/clusterTestSample/";  
         SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");    
         String beginTime = sdf.format(new java.util.Date());    
         System.out.println("程序开始执行时间:"+beginTime);    
         String[] terms = computeV.createTestSamples(srcDir, destDir);  
         //kmeansCluster1.KmeansClusterMain(destDir, terms);  
         kmeansCluster2.KmeansClusterMain(destDir);  
         String endTime = sdf.format(new java.util.Date());    
         System.out.println("程序结束执行时间:"+endTime);    
     }  
 }  

3、K-means算法聚类结果

K-means算法对newsgroup文本聚类的结果用聚类结果的熵值来度量，熵值定义如下

对newsgroup文本聚类的结果混淆矩阵如下：

这是用DF法降维到6070词的聚类结果，熵值已经比较小了聚20类时只有1.144，特征词抽取降维是数据挖掘研究中的一个重要内容，我还尝试了用LSI中的SVD分解来进行特征降维，详细介绍实现和其他两种聚类算法的聚类结果对比见下一篇博文数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现(下)

你可能感兴趣的:(数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现(上))

【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
高并发系统架构设计茫茫人海一粒沙系统架构 java
在互联网系统中，“高并发”从来不是稀罕事：双十一秒杀、12306抢票、新人注册峰值、热点直播点赞……，如果你的系统没有良好的架构设计，很容易出现：接口超时、数据错乱、系统宕机。本文从六个核心维度出发，系统性讲解如何构建一套“抗得住流量洪峰”的企业级高并发架构。一、系统拆分——降低系统耦合度，提高弹性伸缩能力核心思想将单体系统按业务域/模块/职责划分为多个服务；采用微服务架构（如SpringClou
C# 中 EventWaitHandle 实现多进程状态同步的深度解析 Leon@Lee c#开发语言
在现代软件开发中，多进程应用场景日益普遍。无论是分布式系统、微服务架构，还是传统的客户端-服务器模型，进程间的状态同步都是一个关键挑战。C#提供了多种同步原语，其中EventWaitHandle是一个强大的工具，特别适合处理跨进程的同步需求。本文将深入探讨EventWaitHandle的工作原理、使用场景及最佳实践。一、EventWaitHandle基础原理EventWaitHandle是.NET
根包含文件——Luaconf.h (src) LLLLLLLLLLLLLL265161 Inside Lua lua integer 编译器 alignment c++dll
Luaconf.h是配置的总集，定义了平台相关的设置，是所有文件都包含的，即RootlyIncluded。0.前言开始关注Lua也是06年六月的事情，《程序员》的2006年第六期中，我独独看中了Lua，而不是当时我已经比较熟悉的Python和Ruby，即使它们我都关注了好几年，但是都没有Lua给我的震撼大。于是那个夏天，稍微地尝试读了Lua的代码。开学后，我突然觉得自己有点受唆使，轻信了动态的福音
推荐使用：Vue-Cron —— 简易CRON表达式生成器乌昱有Melanie
推荐使用：Vue-Cron——简易CRON表达式生成器项目地址:https://gitcode.com/gh_mirrors/vu/vue-cronVue-Cron是一款专为Vue.js和Element-UI设计的高效、易用的CRON表达式生成插件。它能帮助开发者轻松创建和管理定时任务策略，提供直观的界面和完善的国际化支持。项目介绍Vue-Cron提供了一个简洁的交互界面，让用户能够通过可视化的操
vue-cron: Cron表达式UI组件开发指南刘通双Elsie
vue-cron:Cron表达式UI组件开发指南项目地址:https://gitcode.com/gh_mirrors/vu/vue-cron项目介绍vue-cron是一个基于Vue框架设计的cron表达式UI组件库.该项目特别适用于那些需要在前端界面中提供cron表达式编辑功能的应用场景。通过简洁直观的接口，开发者可以轻松地将此组件集成到他们的Vue应用程序中，以实现对定时任务计划的精确控制。该
计算机考研408真题解析（2024-34 二进制数字调制方法深度解析与FSK双频载波实现）
【良师408】计算机考研408真题解析（2024-34二进制数字调制方法深度解析与FSK双频载波实现）传播知识，做懂学生的好老师1.【哔哩哔哩】（良师408）2.【抖音】（良师408）goodteacher4083.【小红书】（良师408）4.【CSDN】（良师408）goodteacher4085.【微信】（良师408）goodteacher408特别提醒：【良师408】所收录真题根据考生回忆整
64、Delphi系统架构与线程模型详解 g8f9d0s1a2 深入解析Delphi 6开发者指南 Delphi 系统架构线程模型
Delphi系统架构与线程模型详解1系统架构概述Delphi作为一款强大的集成开发环境（IDE），其系统架构设计不仅体现了高效性，还融合了灵活性和可扩展性。理解Delphi的系统架构是掌握其核心功能和开发技巧的关键。本文将详细介绍Delphi的系统架构及其各组成部分的交互方式，帮助开发者更好地利用这款工具。1.1Delphi系统架构的基本组成部分Delphi的系统架构主要包括以下几个关键部分：编译
推荐使用ReactJS Cron：一款强大且灵活的定时任务编辑器
推荐使用ReactJSCron：一款强大且灵活的定时任务编辑器react-js-cronAReactcroneditorbuiltwithantd项目地址:https://gitcode.com/gh_mirrors/re/react-js-cron项目简介ReactJSCron是一个基于React和AntDesign构建的高效能定时任务编辑组件。它提供了友好的用户界面，帮助开发者轻松创建和管理c
Linux系统日志管理多肉葡萄～ linux 运维服务器
日志文件作用日志文件用于记录linux系统的各种运行信息的文件，相当于linux主机的日记，不同的日志文件记载了不同类型的信息,如Linux内核消息、用户登录事件、程序错误等。日志文件对于诊断和解决问题很有帮助，因为linux运行的程序通常把系统的消息和错误写入对应的日志文件，这样系统可以有据可查，此外,当主机遭受攻击时,日志文件还可以帮助寻找攻击者留下的痕迹。几种日志管理工具的介绍在Linux系
LabVIEW液压系统远程监控 LabVIEW开发 LabVIEW开发案例 LabVIEW开发案例
利用LabVIEW开发构建注塑机合模液压系统远程监控平台，实现设备状态实时监测、数据交互与远程控制。应用场景工业自动化产线监控：在大型注塑生产车间，实时监测多台注塑机合模液压系统的压力、流量、位移等关键参数，支持产线集中管理。设备远程维护：工程师可通过VPN网络远程访问现场设备，实现故障诊断、参数调整，减少现场维护成本与停机时间。无人值守生产场景：配合自动化上下料系统，实现24小时连续生产监控，异
Python3获取5000个元素的单字符表 DechinPhy
技术背景此前考虑过一个问题，有没有办法获取到python里面所有定义好的单字符的表，比如我们获取5000个不一样的单字符，但是常用的chr(number)的方法里面包含了太多的非字母条目，比如缩进换行符等，也会被识别为长度为1的符号。因此需要在此基础上加一个isalpha()的判断。输出5000个字符示例先解释一下思路，我们还是遍历chr中所包含的字符，此时得到的是所有的长度为1的字符，再用str
【lua】Linux上安装lua和luarocks包管理工具果壳~ lua linux 开发语言
目录安装lua安装luarocksluarocks其他命令安装lua首先打开lua官网https://lua.org点击download就可以看到安装脚本新建一个目录将压缩包下载到这个目录里curl-L-R-Ohttps://www.lua.org/ftp/lua-5.4.8.tar.gztarzxflua-5.4.8.tar.gzcdlua-5.4.8makealltest#最后还得加上make
HDMIheb.dll hpgtg311.dll HPCommon.dll HQTTS.0409.409.dll HpuFunction.dll hpzpe4v3.DLL Hardware a***0738 microsoft visual studio windows
在使用电脑系统时经常会出现丢失找不到某些文件的情况，由于很多常用软件都是采用MicrosoftVisualStudio编写的，所以这类软件的运行需要依赖微软VisualC++运行库，比如像QQ、迅雷、Adobe软件等等，如果没有安装VC++运行库或者安装的版本不完整，就可能会导致这些软件启动时报错，提示缺少库文件。如果我们遇到关于文件在系统使用过程中提示缺少找不到的情况，如果文件是属于运行库文件的
Golang cron 定时任务完全指南：从入门到精通 Golang编程笔记 Golang编程笔记 Golang开发实战 golang wpf 开发语言 ai
Golangcron定时任务完全指南：从入门到精通关键词：Golang、cron、定时任务、任务调度、并发处理、分布式任务、最佳实践摘要：本文将全面介绍Golang中实现cron定时任务的各个方面，从基础概念到高级应用，涵盖标准库使用、第三方库对比、并发处理、分布式任务调度等核心内容。我们将通过详细的代码示例、架构图解和实际应用场景分析，帮助开发者掌握在Golang中构建可靠、高效的定时任务系统的
小程序领域H5的CSS布局优化小程序开发2020 CS 小程序 css 前端 ai
小程序领域H5的CSS布局优化：从“乱屏”到“丝滑”的实战指南关键词：小程序布局优化、CSSFlex、CSSGrid、rpx适配、重排重绘优化摘要：本文从开发者最头疼的“小程序页面布局错乱”问题出发，结合小程序特有的运行环境（如rpx单位、组件限制），用“装修房子”的生活化比喻拆解CSS布局核心概念，系统讲解Flex/Grid布局的实战技巧、多端适配策略及性能优化方法。通过真实代码案例（含wxml
Linux journal 日志大小限制与管理详解 XMYX-0 linux 运维服务器
文章目录Linuxjournal日志大小限制与管理详解journal日志的默认存储位置journal日志大小限制配置查看当前日志占用情况手动清理日志文件按大小清理日志按时间清理日志按文件数清理日志journald日志机制原理简析（适当加点原理）日志筛选与导出技巧（实用提升）按服务名筛选按时间范围查看日志导出日志为纯文本文件实时查看日志（类似`tail-f`）常见问题与踩坑提醒（经验+防踩坑）问题1
Redis网络通信模块深度解析：单线程Reactor到多线程IO的架构演进
一、核心架构：单线程Reactor模型Redis网络模块采用经典Reactor模式，核心流程如下：voidaeMain(aeEventLoop*eventLoop){while(!eventLoop->stop){//前置钩子（集群心跳/数据持久化）if(eventLoop->beforesleep)eventLoop->beforesleep(eventLoop);//事件分派：I/O复用+定时
【C++】命令模式
目录一、模式核心概念与结构二、C++实现示例：遥控器与家电控制三、命令模式的关键特性四、应用场景五、命令模式与其他设计模式的关系六、C++标准库中的命令模式应用七、优缺点分析八、实战案例：数据库事务命令九、实现注意事项如果这篇文章对你有所帮助，渴望获得你的一个点赞！命令模式（CommandPattern）是一种【行为型】设计模式，它将请求封装为对象，从而使你可以用不同的请求对客户端进行参数化，对请
Excel数据导出小记焚城记录总结 EXCEL插件 excel .net
文章目录前言一、DataTable=>EXCEL二、DBReader=>Excel（NPOI）三、分页查询DbReader=>Excel(MiniExcel)总结：前言最近经历了一次数据量比较大的导出，也做了各种优化尝试，这里稍记录一下一、DataTable=>EXCELusingSystem;usingSystem.Collections.Generic;usingSystem.IO;using
【安装Stable Diffusion以及遇到问题和总结】岁月玲珑 AI stable diffusion AI编程 AI作画
在本地安装部署StableDiffusion，需要准备好硬件环境，安装相关依赖，然后配置模型。下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。系统：Windows10/11、Linux（Ubuntu等）或macOS（需要Rosetta2）。内存：至少16GBRAM。存储空间：准备10GB以上的可用空间。二、软件准备首先要安装Python和
RK系列（RK3568） GPIO按键驱动和Android key新值添加 hmbbPdx_ RK驱动开发 Rk开发(RK3568)android 驱动开发 linux
平台：Android12SOC：RK3568kernel:Linux-4.19首先按键驱动那块不用我们自己写，内核本身有支持可以查看kernel-4.19-driver/input/keyboard/gpio_keys.c我们先描述好设备树添加GPIO4-A0的按键gpio-keys{compatible="gpio-keys";#address-cells=;#size-cells=;autor
力扣网C语言编程题：搜索二维矩阵（右上角-＞左下角解法）魏劭逻辑编程题 C语言算法 leetcode c语言
一.简介上一篇文章关于"在二维数组中查找某个元素"的问题，提供了两种解题思路，文章如下：力扣网C语言编程题：搜索二维矩阵的普通解法与二分查找法-CSDN博客本文提供第三种解题思路：从左下角->右上角，或者右上角->左下角。二.力扣网C语言编程题：搜索二维矩阵（右上角->左下角解法）解题思路三：（换行或换列）因为题目中，数组中元素是每行元素是递增的，同时，每一行的首元素比上一行最后一个元素大，那么，
力扣网C语言编程题：在数组中查找目标值位置魏劭逻辑编程题 C语言算法 c语言 leetcode
一.简介本文记录一下力扣网上涉及数组的问题：排序数组中查找目标值的位置。主要以C语言实现。二.力扣网C语言编程题：在数组中查找目标值位置题目：在排序数组中查找元素的第一个和最后一个位置给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn
力扣网C语言编程题：接雨水（双指针法）魏劭逻辑编程题 C语言 c语言 leetcode 算法
一.简介前面文章是以动态规划方法实现的，文章如下：力扣网C语言编程题：接雨水（动态规划实现）-CSDN博客本文继续针对力扣网的接雨水问题，以另一种解题思路（双指针）以C语言实现和Python实现。二.力扣网C语言编程题：接雨水（双指针法）题目：接雨水给定n个非负整数表示每个宽度为1的柱子的高度图，计算按此排列的柱子，下雨之后能接多少雨水。示例2：输入：height=[4,2,0,3,2,5]输出：
element ui plus 找不到bodyWrapper实现两个表格同步滚动的方法。不二家大哥哥前端 vue.js javascript
mounted(){this.dom1=this.$refs.table1;this.dom2=this.$refs.table2;this.dom1.$el.addEventListener("mouseover",(e)=>{this.flag=false;//此处的flag判断是否主动滚动了当前tablethis.dom2.$el.addEventListener("mouseover",(
vue el-date-picker 直接赋值时控件失效梓暮 IT vue.js 前端 elementui
项目场景：前端vueel-date-picker控件无故失效问题描述本人是主打后端，新进的公司要求前后端全干，然后又因为前端做得少，所以经常碰到一些奇怪的问题，比如以下操作，是给vue前端el-date-picker这个时间控件赋值，但是发现，数据是赋值上去了，但是控件失效了，怎么点都没用if(resData.batchEntity.manage_scene_start_time!=null&&r
css同心圆扩散 weixin_43966308 css布局
同心圆扩散要点：定位：每个圆形定位要相同，因为为了达到同心圆扩散的效果有一个定宽定高的圆形，剩下的圆形通过缩放和透明的改变而改变，因此必须保证定位的位置相同为了达到垂直居中的效果，可以通过transfrom(-50%,-50%),但是因为需要通过transfrom的缩放来达到扩散的效果，因此会发现之前水平垂直的效果没有达到，因为被动画中的trasnfrom缩放的语句覆盖了可以通过margin负值宽
【element-ui】el-date-picker 组件 type=“monthrange“ 选择时间段操作异常生活、追梦者项目实战业务组件开发 ui vue.js 前端
element-ui的el-date-picker组件在选择月份区间时发了这么一个bug。在选择起始月份后关闭了选择面板，再次打开后上次选择的值还存在但是看了所有的属性和方法都没有发现可以清除上次选择的值，也在网上各种搜索没找到解决办法，经过各种办法处理后得到了最简单处理方式,就是利用key值的变化重新渲染组件
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr