yangliuy

数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现(上)

(update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ )

本文要点如下：

对newsgroup文档集进行预处理，按照DF法及SVD分解法抽取特征词，实现降维

实现了K-Means，MBSAS，DBSCAN三种聚类算法
用weka工具进行newsgroup文档聚类

计算各种算法聚类的熵，进行算法评价

1、newsgroup文档集预处理

newsgroup是常用的数据挖掘实验数据。文本预处理主要包括单词分片、去除标点等无关符号、去停用词等等，相关详细介绍见我的另一篇博文数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现（上），此处只给出文本预处理和向量化不同的部分代码。

文本预处理类DataPreProcess.java

package com.pku.yangliu;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;

/** 
 * Newsgroups文档集预处理类
 */
public class DataPreProcess {
	
	/**输入文件调用处理数据函数
	 * @param strDir newsgroup文件目录的绝对路径
	 * @throws IOException 
	 */
	public void doProcess(String strDir) throws IOException{
		File fileDir = new File(strDir);
		if(!fileDir.exists()){
			System.out.println("File not exist:" + strDir);
			return;
		}
		String subStrDir = strDir.substring(strDir.lastIndexOf('/'));
		String dirTarget = strDir + "/../../processedSample_includeNotSpecial"+subStrDir;
		File fileTarget = new File(dirTarget);
		if(!fileTarget.exists()){//注意processedSample需要先建立目录建出来，否则会报错，因为母目录不存在
			fileTarget.mkdir();
		}
		File[] srcFiles = fileDir.listFiles();
		String[] stemFileNames = new String[srcFiles.length];
		for(int i = 0; i < srcFiles.length; i++){
			String fileFullName = srcFiles[i].getCanonicalPath();
			String fileShortName = srcFiles[i].getName();
			if(!new File(fileFullName).isDirectory()){//确认子文件名不是目录如果是可以再次递归调用
				System.out.println("Begin preprocess:"+fileFullName);
				StringBuilder stringBuilder = new StringBuilder();
				stringBuilder.append(dirTarget + "/" + fileShortName);
				createProcessFile(fileFullName, stringBuilder.toString());
				stemFileNames[i] = stringBuilder.toString();
			}
			else {
				fileFullName = fileFullName.replace("\\","/");
				doProcess(fileFullName);
			}
		}
		//下面调用stem算法
		if(stemFileNames.length > 0 && stemFileNames[0] != null){
			Stemmer.porterMain(stemFileNames);
		}
	}
	
	/**进行文本预处理生成目标文件
	 * @param srcDir 源文件文件目录的绝对路径
	 * @param targetDir 生成的目标文件的绝对路径
	 * @throws IOException 
	 */
	private static void createProcessFile(String srcDir, String targetDir) throws IOException {
		// TODO Auto-generated method stub
		FileReader srcFileReader = new FileReader(srcDir);
		FileReader stopWordsReader = new FileReader("F:/DataMiningSample/stopwords.txt");
		FileWriter targetFileWriter = new FileWriter(targetDir);	
		BufferedReader srcFileBR = new BufferedReader(srcFileReader);//装饰模式
		BufferedReader stopWordsBR = new BufferedReader(stopWordsReader);
		String line, resLine, stopWordsLine;
		//用stopWordsBR够着停用词的ArrayList容器
		ArrayList<String> stopWordsArray = new ArrayList<String>();
		while((stopWordsLine = stopWordsBR.readLine()) != null){
			if(!stopWordsLine.isEmpty()){
				stopWordsArray.add(stopWordsLine);
			}
		}
		while((line = srcFileBR.readLine()) != null){
			resLine = lineProcess(line,stopWordsArray);
			if(!resLine.isEmpty()){
				//按行写，一行写一个单词
				String[] tempStr = resLine.split(" ");//\s
				for(int i = 0; i < tempStr.length; i++){
					if(!tempStr[i].isEmpty()){
						targetFileWriter.append(tempStr[i]+"\n");
					}
				}
			}
		}
		targetFileWriter.flush();
		targetFileWriter.close();
		srcFileReader.close();
		stopWordsReader.close();
		srcFileBR.close();
		stopWordsBR.close();	
	}
	
	/**对每行字符串进行处理，主要是词法分析、去停用词和stemming
	 * @param line 待处理的一行字符串
	 * @param ArrayList<String> 停用词数组
	 * @return String 处理好的一行字符串，是由处理好的单词重新生成，以空格为分隔符
	 * @throws IOException 
	 */
	private static String lineProcess(String line, ArrayList<String> stopWordsArray) throws IOException {
		// TODO Auto-generated method stub
		//step1 英文词法分析，去除数字、连字符、标点符号、特殊字符，所有大写字母转换成小写，可以考虑用正则表达式
		String res[] = line.split("[^a-zA-Z]");
		//这里要小心，防止把有单词中间有数字和连字符的单词 截断了，但是截断也没事
		String resString = new String();
		//step2去停用词
		//step3stemming,返回后一起做
		for(int i = 0; i < res.length; i++){
			if(!res[i].isEmpty() && !stopWordsArray.contains(res[i].toLowerCase())){
				resString += " " + res[i].toLowerCase() + " ";
			}
		}
		return resString;
	}

	/**
	 * @param args
	 * @throws IOException 
	 */
	public void BPPMain(String[] args) throws IOException {
		// TODO Auto-generated method stub
		DataPreProcess dataPrePro = new DataPreProcess();
		dataPrePro.doProcess("F:/DataMiningSample/orginSample");

	}

}

文本向量化表示主要基于TF-IDF值 ComputeWordsVector.java

package com.pku.yangliu;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.HashSet;
import java.util.SortedMap;
import java.util.Map;
import java.util.Set;
import java.util.SortedSet;
import java.util.TreeMap;
import java.util.Iterator;
import java.util.TreeSet;

/**计算文档的属性向量，将所有文档向量化
 *
 */
public class ComputeWordsVector {
	
	/**计算文档的TF-IDF属性向量,返回Map<文件名，Map<特征词，TF-IDF值>>
	 * @param testSampleDir 处理好的聚类样本测试样例集合
	 * @return Map<String,Map<String,Double>> 所有测试样例的属性向量构成的map
	 * @throws IOException 
	 */
	public Map<String,Map<String,Double>> computeTFMultiIDF(String testSampleDir) throws IOException{
		String word;
		Map<String,Map<String,Double>> allTestSampleMap = new TreeMap<String,Map<String,Double>>();
		Map<String, Double> idfPerWordMap = computeIDF(testSampleDir);
		Map<String,Double> TFPerDocMap = new TreeMap<String,Double>();//计算每篇文档中含有各特征词数量
		File[] samples = new File(testSampleDir).listFiles();
		System.out.println("the total number of test files is" + samples.length);
		for(int i = 0; i < samples.length; i++){
			TFPerDocMap.clear();
			FileReader samReader = new FileReader(samples[i]);
			BufferedReader samBR = new BufferedReader(samReader);
			Double wordSumPerDoc = 0.0;//计算每篇文档的总词数
			while((word = samBR.readLine()) != null){
				if(!word.isEmpty()){
					wordSumPerDoc++;
					if(TFPerDocMap.containsKey(word)){
						Double count =  TFPerDocMap.get(word);
						TFPerDocMap.put(word, count + 1.0);
					}
					else {
						TFPerDocMap.put(word, 1.0);
					}
				}
			}

			Double maxCount = 0.0, wordWeight;//记录出现次数最多的词出现的次数，用做归一化
			Set<Map.Entry<String, Double>> tempTF = TFPerDocMap.entrySet();
			for(Iterator<Map.Entry<String, Double>> mt = tempTF.iterator(); mt.hasNext();){
				Map.Entry<String, Double> me = mt.next();
				if(me.getValue() > maxCount) maxCount = me.getValue();
			}
			for(Iterator<Map.Entry<String, Double>> mt = tempTF.iterator(); mt.hasNext();){
				Map.Entry<String, Double> me = mt.next();
				Double IDF = Math.log(samples.length / idfPerWordMap.get(me.getKey())) / Math.log(10);
				wordWeight =  (me.getValue() / maxCount) * IDF;
				TFPerDocMap.put(me.getKey(), wordWeight);
			}
			TreeMap<String,Double> tempMap = new TreeMap<String,Double>();
			tempMap.putAll(TFPerDocMap);
			allTestSampleMap.put(samples[i].getName(), tempMap);
		}
		//printTestSampleMap(allTestSampleMap);
		return allTestSampleMap;
	}
	
	/**输出测试样例map内容，用于测试
	 * @param SortedMap<String,Double> 属性词典
	 * @throws IOException 
	 */
	void printTestSampleMap(Map<String,Map<String,Double>> allTestSampleMap) throws IOException {
		// TODO Auto-generated method stub
		File outPutFile = new File("F:/DataMiningSample/KmeansClusterResult/allTestSampleMap.txt");
		FileWriter outPutFileWriter = new FileWriter(outPutFile);
		Set<Map.Entry<String,Map<String,Double>>> allWords = allTestSampleMap.entrySet();
		for(Iterator<Map.Entry<String,Map<String,Double>>> it = allWords.iterator(); it.hasNext();){
			Map.Entry<String,Map<String,Double>> me = it.next();
			outPutFileWriter.append(me.getKey() + " ");
			Set<Map.Entry<String,Double>> vecSet = me.getValue().entrySet();
			for(Iterator<Map.Entry<String, Double>> jt = vecSet.iterator(); jt.hasNext();){
				Map.Entry<String, Double> ne = jt.next();
				outPutFileWriter.append(ne.getKey() + " "+ ne.getValue() + " ");
			}
			outPutFileWriter.append("\n");
			outPutFileWriter.flush();
		}
		outPutFileWriter.close();
	}
	
	/**统计每个词的总的出现次数，返回出现次数大于n次的词汇构成最终的属性词典
	 * @param strDir 处理好的newsgroup文件目录的绝对路径
	 * @throws IOException 
	 */
	public SortedMap<String,Double> countWords(String strDir,Map<String, Double> wordMap) throws IOException{
		File sampleFile = new File(strDir);
		File [] sampleDir = sampleFile.listFiles();
		String word;
		for(int j = 0; j < sampleDir.length; j++){
			File[] sample = sampleDir[j].listFiles();
			for(int i = 0; i < sample.length; i++){
				if(sample[i].getName().contains("stemed")){
					FileReader samReader = new FileReader(sample[i]);
					BufferedReader samBR = new BufferedReader(samReader);
					while((word = samBR.readLine()) != null){
						if(!word.isEmpty() && wordMap.containsKey(word)){
							double count = wordMap.get(word) + 1;
							wordMap.put(word, count);
						}
						else {
							wordMap.put(word, 1.0);
						}
					}
				}	
			}
		}
	
		//去除停用词后，先用DF法选取特征词，后面再加入特征词的选取算法
		SortedMap<String,Double> newWordMap = new TreeMap<String,Double>();
		Set<Map.Entry<String,Double>> allWords = wordMap.entrySet();
		for(Iterator<Map.Entry<String,Double>> it = allWords.iterator(); it.hasNext();){
			Map.Entry<String, Double> me = it.next();
			if(me.getValue() > 100){//DF法降维
				newWordMap.put(me.getKey(),me.getValue());
			}
		}
		return newWordMap;	
	}

	/**计算IDF，即属性词典中每个词在多少个文档中出现过
	 * @param testSampleDir 聚类算法测试样本所在目录
	 * @return 单词的IDFmap 格式为SortedMap<String,Double> 即<单词，包含该单词的文档数>
	 * @throws IOException 
	 */
	Map<String,Double> computeIDF(String testSampleDir) throws IOException {
		// TODO Auto-generated method stub
		Map<String,Double> IDFPerWordMap = new TreeMap<String,Double>();
		Set<String> alreadyCountWord = new HashSet<String>();//记下当前已经遇到过的该文档中的词
		String word;
		File[] samples = new File(testSampleDir).listFiles();
		for(int i = 0; i < samples.length; i++){
			alreadyCountWord.clear();
			FileReader tsReader = new FileReader(samples[i]);
			BufferedReader tsBR = new BufferedReader(tsReader);
			while((word = tsBR.readLine()) != null){
				if(!alreadyCountWord.contains(word)){
					if(IDFPerWordMap.containsKey(word)){
						IDFPerWordMap.put(word, IDFPerWordMap.get(word) + 1.0);
					}
					else IDFPerWordMap.put(word, 1.0);
					alreadyCountWord.add(word);					
				}
			}
		}
		return IDFPerWordMap;
	}
	
	/**创建聚类算法的测试样例集，主要是过滤出只含有特征词的文档写到一个目录下
	 * @param String srcDir 源目录，已经经过预处理但还没有过滤非特征词的文档目录
	 * @param String destDir 目的目录，聚类算法的测试样例目录
	 * @return String[] 创建测试样例集中特征词数组
	 * @throws IOException 
	 */
	String[] createTestSamples( String srcDir, String destDir) throws IOException {
		// TODO Auto-generated method stub
		SortedMap<String,Double> wordMap = new TreeMap<String,Double>();
		wordMap = countWords(srcDir, wordMap);
		System.out.println("special words map sizes:" + wordMap.size());
		String word, testSampleFile;
		File[] sampleDir = new File(srcDir).listFiles();
		for(int i = 0; i < sampleDir.length; i++){
			File[] sample = sampleDir[i].listFiles();
			for(int j = 0;j < sample.length; j++){	
				if(sample[j].getName().contains("stemed")){
					testSampleFile = destDir + sampleDir[i].getName()+"_"+sample[j].getName();
					FileReader samReader = new FileReader(sample[j]);
					BufferedReader samBR = new BufferedReader(samReader);
					FileWriter tsWriter = new FileWriter(new File(testSampleFile));
					while((word = samBR.readLine()) != null){
						if(wordMap.containsKey(word)){
							tsWriter.append(word + "\n");
						}
					}
					tsWriter.flush();
					tsWriter.close();	
				}
			}
		}
		//返回属性词典
		String [] terms = new String[wordMap.size()];
		int i = 0;
		Set<Map.Entry<String,Double>> allWords = wordMap.entrySet();
		for(Iterator<Map.Entry<String,Double>> it = allWords.iterator(); it.hasNext();){
			Map.Entry<String, Double> me = it.next();
			terms[i] = me.getKey();
			i++;
		}
		return terms;
	}
	
	/**评估函数根据聚类结果文件统计熵和混淆矩阵
	 * @param clusterResultFile 聚类结果文件
	 * @param K 聚类数目
	 * @return double 聚类结果的熵值
	 * @throws IOException 
	 */
	double evaluateClusterRes(String clusterResultFile, int K) throws IOException {
		// TODO Auto-generated method stub
		Map<String,String> rightCate = new TreeMap<String,String>();
		Map<String,String> resultCate = new TreeMap<String,String>();
		FileReader crReader = new FileReader(clusterResultFile);
		BufferedReader crBR = new BufferedReader(crReader);
		String[] s;
		String line;
		while((line = crBR.readLine()) != null){
			s = line.split(" ");
			resultCate.put(s[0], s[1]);	
			//再把s[0]用_分片
			rightCate.put(s[0], s[0].split("_")[0]);
		}
		return computeEntropyAndConfuMatrix(rightCate,resultCate,K);//返回熵
	}
	
	/**计算混淆矩阵并且输出，返回熵
	 * @param rightCate 正确类目对应map
	 * @param resultCate 聚类结果对应map
	 * @return double 返回聚类的熵
	 * @throws IOException 
	 */
	private double computeEntropyAndConfuMatrix(Map<String, String> rightCate,
			Map<String, String> resultCate, int K) {
		// TODO Auto-generated method stub	
		int[][] confusionMatrix = new int[K][20];//K行20列，[i,j]表示聚类i中属于类目j的文件数
		//首先求出类目对应的数组索引
		SortedSet<String> cateNames = new TreeSet<String>();
		Set<Map.Entry<String, String>> rightCateSet = rightCate.entrySet();
		for(Iterator<Map.Entry<String, String>> it = rightCateSet.iterator(); it.hasNext();){
			Map.Entry<String, String> me = it.next();
			cateNames.add(me.getValue());
		}
		String[] cateNamesArray = cateNames.toArray(new String[0]);
		Map<String,Integer> cateNamesToIndex = new TreeMap<String,Integer>();
		for(int i = 0; i < cateNamesArray.length; i++){
			cateNamesToIndex.put(cateNamesArray[i],i);
		}
		for(Iterator<Map.Entry<String, String>> it = rightCateSet.iterator(); it.hasNext();){
			Map.Entry<String, String> me = it.next();
			confusionMatrix[Integer.parseInt(resultCate.get(me.getKey()))][cateNamesToIndex.get(me.getValue())]++;
		}
		//输出混淆矩阵
		double [] clusterSum = new double[K];//记录每个聚类的文件数
		double[] everyClusterEntropy = new double[K];//记录每个聚类的熵
		double clusterEntropy = 0;
		System.out.print("    ");
		for(int i = 0; i < 20; i++){
			System.out.print(i + "    ");
		}
		System.out.println();
		for(int i = 0; i < K; i++){
			System.out.print(i + "    ");
			for(int j = 0; j < 20; j++){
				clusterSum[i] += confusionMatrix[i][j];
				System.out.print(confusionMatrix[i][j]+"    ");
			}
			System.out.println();
		}
		System.out.println();
		for(int i = 0; i < K; i++){
			if(clusterSum[i] != 0){
				for(int j = 0; j < 20; j++){
					 double p = (double)confusionMatrix[i][j]/clusterSum[i];
					 if(p != 0){
						 everyClusterEntropy[i] += -p * Math.log(p);
					 }
				}
				clusterEntropy += clusterSum[i]/(double)rightCate.size() * everyClusterEntropy[i];
			}
		}
		return clusterEntropy;
	}

}

2、K-means算法

K-means算法是非常经典的聚类算法。其算法思路是：先选K个初始聚类点作为初始中心点，然后计算其他所有点到K个聚类点的距离做聚类，将点分到最近的聚类，聚完类后中心点发生变化了，于是更新中心点。然后再计算其他所有点到这K个中心点的距离重新聚类，中心点又会发生变化，如此迭代下去。其伪代码如下：

K-means算法的实现有以下关键点：

初始点的选择策略：随机选、均匀抽样、最大最小法等
距离的度量 1-余弦相似度，欧式距离，1-向量内积，测试发现1-余弦相似度效果最好，而1-向量内积速度最快。
中心点的计算向量各维取评价
算法停止条件计算准则函数及设置最大迭代次数
空聚类的处理注意空聚类导致的程序bug

K-means算法实现类KmeansCluster.java

package com.pku.yangliu;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Iterator;
import java.util.Map;
import java.util.Set;
import java.util.TreeMap;
import java.util.Vector;

/**Kmeans聚类算法的实现类，将newsgroups文档集聚成10类、20类、30类
 * 算法结束条件:当每个点最近的聚类中心点就是它所属的聚类中心点时，算法结束
 *
 */

public class KmeansCluster {
	
	/**Kmeans算法主过程
	 * @param Map<String, Map<String, Double>> allTestSampleMap 聚类算法测试样本map
	 * @param int K 聚类的数量
	 * @return Map<String,Integer> 聚类的结果  即<文件名，聚类完成后所属的类别标号>
	 * @throws IOException 
	 */
	private Map<String, Integer> doProcess(
			Map<String, Map<String, Double>> allTestSampleMap, int K) {
		// TODO Auto-generated method stub
		//0、首先获取allTestSampleMap所有文件名顺序组成的数组
		String[] testSampleNames = new String[allTestSampleMap.size()];
		int count = 0, tsLength = allTestSampleMap.size();
		Set<Map.Entry<String, Map<String, Double>>> allTestSampeleMapSet = allTestSampleMap.entrySet();
		for(Iterator<Map.Entry<String, Map<String, Double>>> it = allTestSampeleMapSet.iterator(); it.hasNext(); ){
			Map.Entry<String, Map<String, Double>> me = it.next();
			testSampleNames[count++] = me.getKey();
		}
		//1、初始点的选择算法是随机选择或者是均匀分开选择，这里采用后者
		Map<Integer, Map<String, Double>> meansMap = getInitPoint(allTestSampleMap, K);//保存K个中心点
		double [][] distance = new double[tsLength][K];//distance[i][j]记录点i到聚类中心j的距离
		//2、初始化K个聚类
		int [] assignMeans = new int[tsLength];//记录所有点属于的聚类序号，初始化全部为0
		Map<Integer, Vector<Integer>> clusterMember = new TreeMap<Integer,Vector<Integer>>();//记录每个聚类的成员点序号
		Vector<Integer> mem = new Vector<Integer>();
		int iterNum = 0;//迭代次数
		while(true){
			System.out.println("Iteration No." + (iterNum++) + "----------------------");
			//3、计算每个点和每个聚类中心的距离
			for(int i = 0; i < tsLength; i++){
				for(int j = 0; j < K; j++){
					distance[i][j] = getDistance(allTestSampleMap.get(testSampleNames[i]),meansMap.get(j));
				}
			}
			//4、找出每个点最近的聚类中心
			int[] nearestMeans = new int[tsLength];
			for(int i = 0; i < tsLength; i++){
				nearestMeans[i] = findNearestMeans(distance, i);
			}
			//5、判断当前所有点属于的聚类序号是否已经全部是其离得最近的聚类，如果是或者达到最大的迭代次数，那么结束算法
			int okCount = 0;
			for(int i = 0; i <tsLength; i++){
				if(nearestMeans[i] == assignMeans[i]) okCount++;
			}
			System.out.println("okCount = " + okCount);
			if(okCount == tsLength || iterNum >= 10) break;
			//6、如果前面条件不满足，那么需要重新聚类再进行一次迭代，需要修改每个聚类的成员和每个点属于的聚类信息
			clusterMember.clear();
			for(int i = 0; i < tsLength; i++){
				assignMeans[i] = nearestMeans[i];
				if(clusterMember.containsKey(nearestMeans[i])){
					clusterMember.get(nearestMeans[i]).add(i);	
				}
				else {
					mem.clear();
					mem.add(i);
					Vector<Integer> tempMem = new Vector<Integer>();
					tempMem.addAll(mem);
					clusterMember.put(nearestMeans[i], tempMem);
				}
			}
			//7、重新计算每个聚类的中心点!
			for(int i = 0; i < K; i++){
				if(!clusterMember.containsKey(i)){//注意kmeans可能产生空聚类
					continue;
				}
				Map<String, Double> newMean = computeNewMean(clusterMember.get(i), allTestSampleMap, testSampleNames);
				Map<String, Double> tempMean = new TreeMap<String, Double>();
				tempMean.putAll(newMean);
				meansMap.put(i, tempMean);
			}
		}
		//8、形成聚类结果并且返回
		Map<String, Integer> resMap = new TreeMap<String, Integer>();
		for(int i = 0; i < tsLength; i++){
			resMap.put(testSampleNames[i], assignMeans[i]);
		}
		return resMap;
	}

	/**计算当前聚类新的中心，采用向量平均
	 * @param clusterM 该点到所有聚类中心的距离
	 * @param allTestSampleMap 所有测试样例的<文件名，向量>构成的map
	 * @param testSampleNames 所有测试样例文件名构成的数组
	 * @return Map<String, Double> 新的聚类中心的向量
	 * @throws IOException 
	 */
	private Map<String, Double> computeNewMean(Vector<Integer> clusterM,
			Map<String, Map<String, Double>> allTestSampleMap,
			String[] testSampleNames) {
		// TODO Auto-generated method stub
		double memberNum = (double)clusterM.size();
		Map<String, Double> newMeanMap = new TreeMap<String,Double>();
		Map<String, Double> currentMemMap = new TreeMap<String,Double>();
		for(Iterator<Integer> it = clusterM.iterator(); it.hasNext();){
			int me = it.next();
			currentMemMap = allTestSampleMap.get(testSampleNames[me]);
			Set<Map.Entry<String, Double>> currentMemMapSet = currentMemMap.entrySet();
			for(Iterator<Map.Entry<String, Double>> jt = currentMemMapSet.iterator(); jt.hasNext();){
				Map.Entry<String, Double> ne = jt.next();
				if(newMeanMap.containsKey(ne.getKey())){
					newMeanMap.put(ne.getKey(), newMeanMap.get(ne.getKey()) + ne.getValue());
				} 
				else {
					newMeanMap.put(ne.getKey(), ne.getValue());
				}
			}
		}
		
		Set<Map.Entry<String, Double>> newMeanMapSet = newMeanMap.entrySet();
			for(Iterator<Map.Entry<String, Double>> jt = newMeanMapSet.iterator(); jt.hasNext();){
				Map.Entry<String, Double> ne = jt.next();
				newMeanMap.put(ne.getKey(), newMeanMap.get(ne.getKey()) / memberNum);	
		}
		return newMeanMap;
	}

	/**找出距离当前点最近的聚类中心
	 * @param double[][] 点到所有聚类中心的距离
	 * @return i 最近的聚类中心的序 号
	 * @throws IOException 
	 */
	private int findNearestMeans(double[][] distance,int m) {
		// TODO Auto-generated method stub
		double minDist = 10;
		int j = 0;
		for(int i = 0; i < distance[m].length; i++){
			if(distance[m][i] < minDist){
				minDist = distance[m][i];
				j = i;
			}
		}
		return j;
	}


	/**计算两个点的距离
	 * @param map1 点1的向量map
	 * @param map2 点2的向量map
	 * @return double 两个点的欧式距离
	 */
	private double getDistance(Map<String, Double> map1, Map<String, Double> map2) {
		// TODO Auto-generated method stub
		return 1 - computeSim(map1,map2);
	}
	
	/**计算两个文本的相似度
	 * @param testWordTFMap 文本1的<单词,词频>向量
	 * @param trainWordTFMap 文本2<单词,词频>向量
	 * @return Double 向量之间的相似度 以向量夹角余弦计算或者向量内积计算（效果相当而速度更快）
	 * @throws IOException 
	 */
	private double computeSim(Map<String, Double> testWordTFMap,
			Map<String, Double> trainWordTFMap) {
		// TODO Auto-generated method stub
		double mul = 0;//, testAbs = 0, trainAbs = 0;
		Set<Map.Entry<String, Double>> testWordTFMapSet = testWordTFMap.entrySet();
		for(Iterator<Map.Entry<String, Double>> it = testWordTFMapSet.iterator(); it.hasNext();){
			Map.Entry<String, Double> me = it.next();
			if(trainWordTFMap.containsKey(me.getKey())){
				mul += me.getValue()*trainWordTFMap.get(me.getKey());
			}
			//testAbs += me.getValue() * me.getValue();
		}
		//testAbs = Math.sqrt(testAbs);
		
		/*Set<Map.Entry<String, Double>> trainWordTFMapSet = trainWordTFMap.entrySet();
		for(Iterator<Map.Entry<String, Double>> it = trainWordTFMapSet.iterator(); it.hasNext();){
			Map.Entry<String, Double> me = it.next();
			trainAbs += me.getValue()*me.getValue();
		}
		trainAbs = Math.sqrt(trainAbs);*/
		return mul ;/// (testAbs * trainAbs);
	}

	/**获取kmeans算法迭代的初始点
	 * @param k 聚类的数量
	 * @param Map<String, Map<String, Double>> allTestSampleMap 所有测试样例的<文件名，向量>构成的map
	 * @return Map<Integer, Map<String, Double>> 初始中心点的Map
	 * @throws IOException 
	 */
	private Map<Integer, Map<String, Double>> getInitPoint(Map<String, Map<String, Double>> allTestSampleMap, int K) {
		// TODO Auto-generated method stub
		int count = 0, i = 0;
		Map<Integer, Map<String, Double>> meansMap = new TreeMap<Integer, Map<String, Double>>();//保存K个聚类中心点向量
		System.out.println("本次聚类的初始点对应的文件为：");
		Set<Map.Entry<String, Map<String,Double>>> allTestSampleMapSet = allTestSampleMap.entrySet();
		for(Iterator<Map.Entry<String, Map<String,Double>>> it = allTestSampleMapSet.iterator();it.hasNext();){
			Map.Entry<String, Map<String,Double>> me = it.next();
			if(count == i * allTestSampleMapSet.size() / K){
				meansMap.put(i, me.getValue());
				System.out.println(me.getKey() + " map size is " + me.getValue().size());
				i++;
			}
			count++;
		}
		return meansMap;
	}

	/**输出聚类结果到文件中
	 * @param kmeansClusterResultFile 输出文件目录
	 * @param kmeansClusterResult 聚类结果
	 * @throws IOException 
	 */
	private void printClusterResult(Map<String, Integer> kmeansClusterResult, String kmeansClusterResultFile) throws IOException {
		// TODO Auto-generated method stub
		FileWriter resWriter = new FileWriter(kmeansClusterResultFile);
		Set<Map.Entry<String,Integer>> kmeansClusterResultSet = kmeansClusterResult.entrySet();
		for(Iterator<Map.Entry<String,Integer>> it = kmeansClusterResultSet.iterator(); it.hasNext(); ){
			Map.Entry<String, Integer> me = it.next();
			resWriter.append(me.getKey() + " " + me.getValue() + "\n");
		}
		resWriter.flush();
		resWriter.close();
	}
	
	public void KmeansClusterMain(String testSampleDir) throws IOException {
		//首先计算文档TF-IDF向量，保存为Map<String,Map<String,Double>> 即为Map<文件名，Map<特征词，TF-IDF值>>
		ComputeWordsVector computeV = new ComputeWordsVector();
		int[] K = {10, 20 ,30};
		Map<String,Map<String,Double>> allTestSampleMap = computeV.computeTFMultiIDF(testSampleDir);
		for(int i = 0; i < K.length; i++){
			System.out.println("开始聚类，聚成" + K[i] + "类");
			String KmeansClusterResultFile = "F:/DataMiningSample/KmeansClusterResult/";
			Map<String,Integer> KmeansClusterResult = new TreeMap<String, Integer>();
			KmeansClusterResult = doProcess(allTestSampleMap, K[i]);
			KmeansClusterResultFile += K[i];
			printClusterResult(KmeansClusterResult,KmeansClusterResultFile);
			System.out.println("The Entropy for this Cluster is " + computeV.evaluateClusterRes(KmeansClusterResultFile, K[i]));
		}
	}
}

聚类器主类ClusterMain.java

package com.pku.yangliu;

import java.io.IOException;
import java.text.SimpleDateFormat;

/**聚类器主类，提供主函数入口
 *
 */
public class ClusterMain {

	/**
	 * @param args
	 * @throws IOException 
	 */
	public static void main(String[] args) throws IOException {
		// TODO Auto-generated method stub
		DataPreProcess DataPP = new DataPreProcess();
		ComputeWordsVector computeV = new ComputeWordsVector();
		//KmeansSVDCluster kmeansCluster1 = new KmeansSVDCluster();
		KmeansCluster kmeansCluster2 = new KmeansCluster();
		DataPP.BPPMain(args);//数据预处理,注意如果已经完成数据预处理，此函数可以不执行
		//下面创建聚类算法的测试样例集合
		String srcDir = "F:/DataMiningSample/processedSample_includeNotSpecial/";
		String destDir = "F:/DataMiningSample/clusterTestSample/";
		SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");  
		String beginTime = sdf.format(new java.util.Date());  
		System.out.println("程序开始执行时间:"+beginTime);  
		String[] terms = computeV.createTestSamples(srcDir, destDir);
		//kmeansCluster1.KmeansClusterMain(destDir, terms);
		kmeansCluster2.KmeansClusterMain(destDir);
		String endTime = sdf.format(new java.util.Date());  
		System.out.println("程序结束执行时间:"+endTime);  
	}
}

3、K-means算法聚类结果

K-means算法对newsgroup文本聚类的结果用聚类结果的熵值来度量，熵值定义如下

对newsgroup文本聚类的结果混淆矩阵如下：

这是用DF法降维到6070词的聚类结果，熵值已经比较小了聚20类时只有1.144，特征词抽取降维是数据挖掘研究中的一个重要内容，我还尝试了用LSI中的SVD分解来进行特征降维，详细介绍实现和其他两种聚类算法的聚类结果对比见下一篇博文数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现(下)

你可能感兴趣的:(java,算法,String,数据挖掘,Integer)

c语言数据结构-------最小生成树(Prim和Kruskal算法) javaisC c语言数据结构算法
#include#include#include#include//图，邻接矩阵存储#defineMaxVertexNum100//最大顶点数typedefstruct{charvex[MaxVertexNum];//顶点表intedge[MaxVertexNum][MaxVertexNum];//边表intvernum,arcnum;//记录当前图的顶点数量和边数}MGraph;//初始化图MG
TensorFlow 深度学习框架详解奶油话梅糖深度学习 tensorflow 人工智能
TensorFlow深度学习框架详解1.框架概述TensorFlow是由GoogleBrain团队开发的开源机器学习框架，其名称源于处理多维数据数组（张量）的数据流图（Flow）的运行方式。核心特点：跨平台支持：可在CPU/GPU/TPU上运行多语言接口：原生支持Python，通过API支持JS/Java/C++生态丰富：集成Keras、TF-Lite、TFX等工具链2.核心概念解析2.1张量（T
Spring Boot 2.x 到 3.x 迁移实战：Redis 配置篇李少兄 Java SpringBoot Redis spring boot redis bootstrap
前言随着SpringBoot3.x的发布，其对Java17的支持和模块化架构的深化，Redis配置与集成方式发生了显著变化。今天简单讲下redis的变化一、Redis配置前缀的模块化演进：从spring.redis到spring.data.redis1.1SpringBoot2.x（Java8）配置前缀：spring.redis示例：spring:redis:host:localhostport:
JAVA(SpringBoot)集成Netty实现(TCP、Websocket)服务端与客户端。 cccl. Java java spring boot 开发语言
SpringBoot集成Netty。一、Netty简介二、Netty功能1.网络通信支持2.高性能与低资源消耗3.易于使用和定制4.内存管理5.安全性三、POM依赖四、TCP1、服务端1.1创建一个Netty服务端类，NettyTcpServer1.2创建一个NettyTcpServerHandler继承自ChannelInboundHandlerAdapter，主要负责处理NettyTCP服务端
＜tauri＞＜rust＞＜GUI＞基于rust和tauri，实现一个大寰电爪PGHL（串口设备）定制化控制程序机构师 rust 后端 tauri javascript modbus GUI
前言本文是基于rust和tauri，由于tauri是前、后端结合的GUI框架，既可以直接生成包含前端代码的文件，也可以在已有的前端项目上集成tauri框架，将前端页面化为桌面GUI。环境配置系统：windows10平台：visualstudiocode语言：rust、javascript库：tauri2.0概述本文是基于使用大寰电爪（串口通讯）的定制化控制程序，使用tauri来实现GUI，内部函数
Spring Boot项目实战：短信功能分布式限流 modelsetget SpringBoot spring boot 分布式后端
项目背景与需求项目名称：充电桩项目升级：进行微服务架构升级关键功能：短信服务，用于用户登录、注册等短信功能设计考虑短信模板存储：需考虑存储方式发送次数限制：防止恶意攻击，设计60秒内只能发送一次短信成本问题：短信成本累积，需考虑限制发送次数以控制成本分布式限流技术概述目的：防止恶意用户频繁发送短信导致成本上升限流方案：列举了五种不同的限流技术及其适用场景限流方案详解基于令牌桶算法：简单，平滑限流，
苍穹外卖-Apache ECharts 罗纳尔琦 echarts 前端 javascript
一、介绍ApacheECharts是一款基于Javascript的数据可视化图表库，提供直观，生动，可交互，可个性化定制的数据可视化图表。官网地址：ApacheECharts通过直观的图表来展示数据二、入门案例ApacheEcharts官方提供的快速入门：快速上手-Handbook-ApacheECharts总结：使用Echarts，重点在于研究当前图表所需的数据格式。通常是需要后端提供符合格式要
mermaid类图画法 m0_55576290 设计模式 mermaid
Mermaid是一种基于文本的图表工具，可以用来绘制类图。以下是使用Mermaid绘制类图的基本方法和示例：基本语法定义类类的基本结构包括类名、属性和方法。属性和方法可以使用+（公有）或-（私有）来修饰。示例：Animal+intage+Stringgender+isMammal():bool+mate()定义关系继承：使用或<--表示关联关系。AnimalFish添加注释可以使用note关键字为
Gradle实战指南：从入门到进阶，与Maven的深度对比潘多编程 maven java
一、为什么开发者正在从Maven转向Gradle？在Java构建工具的演进史中，Maven通过约定优于配置的理念解决了Ant时代的混乱，但其XML配置的冗长和生命周期的僵化逐渐暴露短板。而Gradle凭借GroovyDSL的灵活语法、增量编译的极致性能（构建速度比Maven快2-10倍）和面向任务的编程模型，已成为Android官方构建工具，并在Spring、Hibernate等知名框架中广泛应用
Java Spring 框架技术从入门到放弃：Spring生态之Spring 框架概述学习笔记，Spring 框架是什么，Spring 核心功能与模块，Spring 框架的优势 zl515035644 #Spring生态 java自学指南 Spring生态 Java笔记 java spring Spring 框架
第一章：JavaSpring生态之Spring框架概述学习笔记第一节、Spring框架是什么？概念Spring是一个开源的轻量级Java开发框架，核心目标是简化企业级应用开发。它通过控制反转（IoC）和面向切面编程（AOP）两大核心特性，将复杂的系统解耦，提升代码的可维护性和扩展性。生活案例想象你要建造一座房子：传统方式：自己购买所有建材（如砖、水泥），自己设计结构，自己施工。Spring方式：雇
代码随想录算法训练营第27天 | 第八章贪心算法 part05 tt555555555555 C++学习学习笔记算法贪心算法 leetcode c++笔记
文章目录第八章贪心算法part0556.合并区间738.单调递增的数字968.监控二叉树（可跳过）总结第八章贪心算法part0556.合并区间本题也是重叠区间问题，如果昨天三道都吸收的话，本题就容易理解了。别忘了添加最后一个区间56.合并区间classSolution{public:staticboolcmp(vector&a,vector&b){if(a[0]==b[0])returna[1]>
Deepseek 的数据治理体系是怎样运作的？恶霸不委屈人工智能大数据
Deepseek作为一家专注于AI和大数据领域的企业，其数据治理体系通常需要满足高安全性、合规性和高效能的要求。虽然具体技术细节未公开，但基于行业通用实践，其数据治理体系可能包含以下核心模块：1.数据安全防护体系分级加密机制采用AES-256等算法对静态数据加密，TLS1.3协议保障传输安全，敏感数据（如用户身份信息）实施字段级加密。零信任权限管理基于RBAC（角色访问控制）和ABAC（属性访问控
经典算法排列的字典序问题 wuqingshun314159 经典算法蓝桥杯算法数据结构
问题描述给定n个元素{1,2,...,n}，它们一共有n!个不同的排列。将这n!个排列按字典序进行排列，并从0开始编号为0,1,...,n!-1。每个排列对应的编号称为它的字典序值。例如，当n=3时，所有排列的字典序值如下：字典序值排列012311322213323143125321算法设计给定n以及{1,2,...,n}的一个排列，请你计算：该排列的字典序值该排列的下一个排列（按字典序排列）如果
JavaScript中的Web Workers 前端岳大宝前端核心知识总结前端 javascript
以下是关于WebWorkers的全面梳理，涵盖核心概念、使用场景、进阶技巧及注意事项，帮助我们充分利用多线程能力优化前端性能：一、WebWorkers基础概念1.定义与作用定义：WebWorkers是浏览器提供的API，允许在独立后台线程中运行JavaScript脚本，避免主线程阻塞。核心价值：并行计算：处理CPU密集型任务（如数据加密、图像处理）。保持UI响应：将耗时任务移至Worker，防止页
代码随想录算法训练营第31天| 贪心行道迟迟818 算法 python 数据结构
LeetCode.455分发饼干g.sort()s.sort()left=0foriins:ifleft>=len(g):breakifi>=g[left]:left+=1returnleftLeetCode.376摆动序列prediff=0res=1foriinrange(len(nums)-1):curdiff=nums[i+1]-nums[i]ifcurdiff*prediffres:res
代码随想录算法训练营第三十五天| 贪心算法04 Rachela_z 贪心算法算法
452.用最少数量的箭引爆气球代码随想录重叠区间问题，注意点：1.只要points长度不为0，那么至少是需要一只箭的，所以result初始值为12.排序后，如果当前元素第一个值比前一个元素最后一个值小，那么说明不在一个区间里3.在相同区间里的话，需要选择最短尾端classSolution:deffindMinArrowShots(self,points:List[List[int]])->int:
代码随想录算法训练营第二十七天 | 贪心算法 part01 sagen aller 算法贪心算法
455.分发饼干将胃口与饼干排序，从胃口最大的开始遍历，找到符合条件的饼干，不符合就找下一个。也就是说最大的饼干找能满足的最大的胃口。classSolution{public:intfindContentChildren(vector&g,vector&s){sort(g.begin(),g.end());sort(s.begin(),s.end());intresult=0;intj=s.siz
Java基础——第二章Java的基本程序设计结构猪头的彩虹糖 Java基础学习 java
目录数据类型变量与常量运算符字符串控制流程大数数组数据类型Java是一种强类型语言。这就意味着必须为每一个变量声明一种类型。在Java中一共有八种基本类型，其中4种整形、两种浮点类型、1种字符类型char（用于表示Unicode编码的代码单元）和1种用于表示真值的boolean类型。整形：用于表示没有小数部分的数值，允许负数。Java提供了4种整形。类型存储需求取值范围int4字节-2417483
Java的For循环踏切 java学习记录 java
For循环（重点）虽然所有循环结构都可以用while或者do…while表示，但Java提供了另一种语句———for循环，使一些循环结构变得更加简单。for循环语句是支持迭代的一种通用结构，是最有效、最灵活的循环结构。for循环执行的次数是在执行前就确定的。语法格式如下：for(初始化;布尔值表达式;更新){//代码语句}练习1：计算0~100之间的奇数和偶数的和intoddSum=0;intev
5、Java——循环案例代码详解（2）趣享先生 Java案例分享专栏 java jvm servlet
目录案例一案例二案例三案例四案例五案例六案例七案例一输出100以内的所有素数，每行显示5个；并求和。</
高级排序之希尔排序 black bean 数据结构和算法算法数据结构排序算法希尔排序高级排序
1.什么是希尔排序希尔排序(Shell'sSort)是插入排序的一种又称“缩小增量排序”（DiminishingIncrementSort），是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。该方法因D.L.Shell于1959年提出而得名。希尔排序是把记录按下标的一定增量分组，对每组使用直接插入排序算法排序；随着增量逐渐减少，每组包含的关键词越来越多，当增量减至1时，整个文件恰
算法训练营第二十六天 | 贪心算法（四） HEUZrx 算法贪心算法数据结构 python
文章目录一、Leetcode452.用最少数量的箭引爆气球二、Leetcode435.无重叠区间三、Leetcode763.划分字母区间一、Leetcode452.用最少数量的箭引爆气球有一些球形气球贴在一堵用XY平面表示的墙面上。墙面上的气球记录在整数数组points，其中points[i]=[xstart,xend]表示水平直径在xstart和xend之间的气球。你不知道气球的确切y坐标。一支
算法训练营第二十一天 | 回溯算法（三） HEUZrx 算法数据结构 python
文章目录一、Leetcode93.复原IP地址二、Leetcode78.子集三、Leetcode90.子集Ⅱ一、Leetcode93.复原IP地址有效IP地址正好由四个整数（每个整数位于0到255之间组成，且不能含有前导0），整数之间用‘.’分隔。例如："0.1.2.201"和"192.168.1.1"是有效IP地址，但是"0.011.255.245"、"192.168.1.312"和"192.1
算法训练营第十二天 | 二叉树（二） HEUZrx 算法
文章目录一、Leetcode226.反转二叉树二、Leetcode101.对称二叉树三、Leetcode104.二叉树的最大深度四、Leetcode111.二叉树的最小深度一、Leetcode226.反转二叉树给你一棵二叉树的根节点root，翻转这棵二叉树，并返回其根节点。示例：输入：root=[4,2,7,1,3,6,9]输出：[4,7,2,9,6,3,1]参考文档：原文链接：https://p
2025泛目录站群：无极 AI 站群系统，智能建站革新者云惠科技人工智能架构
在数字经济高速发展的今天，网站运营面临收录慢、排名难等痛点。2025年推出的无极AI多功能站群系统，通过PHP+Java架构与智能算法深度融合，为站长和企业提供一站式建站解决方案，重新定义高效建站标准。技术架构：双引擎驱动系统采用PHP+Java混合架构，PHP负责前端交互与快速响应，Java支撑后端稳定运行与AI计算。这种组合既保障了网站流畅的用户体验，又为AI内容生成、蜘蛛策略等复杂功能提供了
Python, C ++开发商品包装设计APP Geeker-2025 python c++
---###**Python&C++开发商品包装设计APP技术方案**以下方案融合AI生成设计、3D建模与物理渲染技术，结合Python的算法生态与C++的高性能图形处理能力，实现从创意到生产的全流程包装设计工具：---###**一、技术架构设计**|模块|技术栈|核心能力说明||---------------------|---------------------------|---------
JavaSE反射和注解小马爱记录 javaSE java
1、反射获取类对象反射机制：可以操作字节码文件在java中获取class的三种方式?第一种:Classc=Class.forName("完整类名");第二种:Classc=对象.getClass();第三种:ClassC=int.class;ClassC-String.class;2、无参数构造方法来实例化对象获取了class之后，可以调用无参数构造方法来实例化对象//c代表的就是日期bate类型
JavaSE基础小马爱记录 javaSE java
Java中的数据类型数据类型引用数据类型类（class）接口（interface）数组枚举（enum）注解（Annotation）基本数据类型字符型（char）布尔型（boolean）数值型整数类型（byte，short，int，long）浮点类型（float，double）整数类型变量类型名占用空间取值范围byte8位（1个字节）-2^7～2^7-1short16位（2个字节）-2^15～2^1
哈希算法深度解析：从碰撞理论到工程实践安全
一、哈希算法的数学本质与核心特性哈希函数H:M→C的数学定义中，输入域M的基数远大于输出域C的基数（|M|>>|C|），这决定了哈希碰撞的必然性。优秀的哈希算法需要在以下三个维度实现精妙平衡：雪崩效应：输入微小变化（1比特翻转）导致至少50%的输出位变化抗碰撞性：找到任意满足H(m₁)=H(m₂)的(m₁,m₂)对的难度不低于O(2^{n/2})抗第二原像攻击：给定m₁，寻找m₂≠m₁且H(m₁)
Vue + Vite + Element Plus 与 Django 进行前后端对接 ivwdcwso 开发与AI vue.js django 前端开发
在现代Web开发中,前后端分离架构越来越受欢迎。这种架构允许前端和后端独立开发和部署,提高了开发效率和灵活性。在本文中,我们将介绍如何使用流行的JavaScript框架Vue和UI库ElementPlus构建前端应用程序,并与PythonWeb框架Django进行对接。©ivwdcwso(ID:u012172506)前端实现初始化Vue+Vite项目npmcreatevite@latestfron
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin