jiangsanfeng1111

文本聚类——Kmeans

上两篇文章分别用朴素贝叶斯算法和KNN算法对newgroup文本进行了分类测试，本文使用Kmeans算法对文本进行聚类。

1、文本预处理

文本预处理在前面两本文章中已经介绍，此处（略）。

2、文本向量化

package com.datamine.kmeans;

import java.io.*;
import java.util.*;
import java.util.Map.Entry;

/**
 * 计算文档的属性向量，将所有文档向量化
 * @author Administrator
 */
public class ComputeWordsVector {

	/**
	 * 计算文档的TF-IDF属性向量，返回Map<文件名，<特征词，TF-IDF值>>
	 * @param testSampleDir 处理好的聚类样本测试样例集
	 * @return 所有测试样例的属性向量构成的map
	 * @throws IOException
	 */
	public Map<String,Map<String,Double>> computeTFMultiIDF(String testSampleDir) throws IOException{
		
		String word;
		Map<String,Map<String,Double>> allTestSampleMap = new TreeMap<String, Map<String,Double>>();
		Map<String,Double> idfPerWordMap = computeIDF(testSampleDir);
		Map<String,Double> tfPerDocMap = new TreeMap<String, Double>();
		
		File[] samples = new File(testSampleDir).listFiles();
		System.out.println("the total number of test files is " + samples.length);
		for(int i = 0;i<samples.length;i++){
			
			tfPerDocMap.clear();
			FileReader samReader = new FileReader(samples[i]);
			BufferedReader samBR = new BufferedReader(samReader);
			Double wordSumPerDoc = 0.0; //计算每篇文档的总词数
			while((word = samBR.readLine()) != null){
				if(!word.isEmpty()){
					wordSumPerDoc++;
					if(tfPerDocMap.containsKey(word))
						tfPerDocMap.put(word, tfPerDocMap.get(word)+1.0);
					else
						tfPerDocMap.put(word, 1.0);
				}
			}
			
			Double maxCount = 0.0,wordWeight; //记录出现次数最多的词的次数，用作归一化  ？？？
			Set<Map.Entry<String, Double>> tempTF = tfPerDocMap.entrySet();
			for(Iterator<Map.Entry<String, Double>> mt = tempTF.iterator();mt.hasNext();){
				Map.Entry<String, Double> me = mt.next();
				if(me.getValue() > maxCount)
					maxCount = me.getValue();
			}
			
			for(Iterator<Map.Entry<String, Double>> mt = tempTF.iterator();mt.hasNext();){
				Map.Entry<String, Double> me = mt.next();
				Double IDF = Math.log(samples.length / idfPerWordMap.get(me.getKey()));
				wordWeight = (me.getValue() / wordSumPerDoc) * IDF;
				tfPerDocMap.put(me.getKey(), wordWeight);
			}
			TreeMap<String,Double> tempMap = new TreeMap<String, Double>();
			tempMap.putAll(tfPerDocMap);
			allTestSampleMap.put(samples[i].getName(), tempMap);
		}
		printTestSampleMap(allTestSampleMap);
		return allTestSampleMap;
	}
	
	/**
	 * 输出测试样例map内容，用于测试
	 * @param allTestSampleMap
	 * @throws IOException 
	 */
	private void printTestSampleMap(
			Map<String, Map<String, Double>> allTestSampleMap) throws IOException {
		// TODO Auto-generated method stub
		File outPutFile = new File("E:/DataMiningSample/KmeansClusterResult/allTestSampleMap.txt");
		FileWriter outPutFileWriter = new FileWriter(outPutFile);
		Set<Map.Entry<String, Map<String,Double>>> allWords = allTestSampleMap.entrySet();
		
		for(Iterator<Entry<String, Map<String, Double>>> it = allWords.iterator();it.hasNext();){
			
			Map.Entry<String, Map<String,Double>> me = it.next();
			outPutFileWriter.append(me.getKey()+" ");
			
			Set<Map.Entry<String, Double>> vectorSet = me.getValue().entrySet();
			for(Iterator<Map.Entry<String, Double>> vt = vectorSet.iterator();vt.hasNext();){
				Map.Entry<String, Double> vme = vt.next();
				outPutFileWriter.append(vme.getKey()+" "+vme.getValue()+" ");
			}
			outPutFileWriter.append("\n");
			outPutFileWriter.flush();
		}
		outPutFileWriter.close();
		
	}

	/**
	 * 统计每个词的总出现次数，返回出现次数大于n次的词汇构成最终的属性词典
	 * @param strDir 处理好的newsgroup文件目录的绝对路径
	 * @param wordMap 记录出现的每个词构成的属性词典
	 * @return newWordMap 返回出现次数大于n次的词汇构成最终的属性词典
	 * @throws IOException
	 */
	public SortedMap<String, Double> countWords(String strDir,
			Map<String, Double> wordMap) throws IOException {
		
		File sampleFile = new File(strDir);
		File[] sample = sampleFile.listFiles();
		String word;
		
		for(int i =0 ;i < sample.length;i++){
			
			if(!sample[i].isDirectory()){
				FileReader samReader = new FileReader(sample[i]);
				BufferedReader samBR = new BufferedReader(samReader);
				while((word = samBR.readLine()) != null){
					if(!word.isEmpty() && wordMap.containsKey(word))
						wordMap.put(word, wordMap.get(word)+1);
					else
						wordMap.put(word, 1.0);
				}
				samBR.close();
			}else{
				countWords(sample[i].getCanonicalPath(),wordMap);
			}
		}
		
		/*
		 * 去除停顿词后，先用DF算法选取特征词，后面再加入特征词的选取算法
		 */
		SortedMap<String,Double> newWordMap = new TreeMap<String, Double>();
		Set<Map.Entry<String, Double>> allWords = wordMap.entrySet();
		for(Iterator<Map.Entry<String, Double>> it = allWords.iterator();it.hasNext();){
			Map.Entry<String, Double> me = it.next();
			if(me.getValue() > 100) //DF算法降维
				newWordMap.put(me.getKey(), me.getValue());
		}
		
		return newWordMap;
	}
	
	/**
	 * 计算IDF，即属性词典中每个词在多少个文档中出现过
	 * @param testSampleDir 聚类算法测试样本所在的目录
	 * @return 单词IDFmap <单词，包含该单词的文档数>
	 * @throws IOException
	 */
	public Map<String,Double> computeIDF(String testSampleDir) throws IOException{
		
		Map<String,Double> IDFPerWordMap = new TreeMap<String, Double>();
		//记下当前已经遇到过的该文档中的词
		Set<String> alreadyCountWord = new HashSet<String>();
		String word;
		File[] samples = new File(testSampleDir).listFiles();
		for(int i = 0;i<samples.length;i++){
			
			alreadyCountWord.clear();
			FileReader tsReader = new FileReader(samples[i]);
			BufferedReader tsBR = new BufferedReader(tsReader);
			while((word = tsBR.readLine()) != null){
				
				if(!alreadyCountWord.contains(word)){
					if(IDFPerWordMap.containsKey(word))
						IDFPerWordMap.put(word, IDFPerWordMap.get(word)+1.0);
					else
						IDFPerWordMap.put(word, 1.0);
					alreadyCountWord.add(word);
				}
			}
		}
		return IDFPerWordMap;
	}

	/**
	 * 创建聚类算法的测试样例集，主要是过滤出只含有特征词的文档写到一个目录下
	 * @param srcDir 源目录，已经预处理但是还没有过滤非特征词的文档目录
	 * @param desDir 目的目录，聚类算法的测试样例目录
	 * @return 创建测试样例集中特征词数组
	 * @throws IOException 
	 */
	public String[] createTestSamples(String srcDir, String desDir) throws IOException {
		
		SortedMap<String,Double> wordMap = new TreeMap<String, Double>();
		wordMap = countWords(srcDir,wordMap);
		System.out.println("special words map sizes:" + wordMap.size());
		String word,testSampleFile;
		
		File[] sampleDir = new File(srcDir).listFiles();
		for(int i =0;i<sampleDir.length;i++){
			
			File[] sample = sampleDir[i].listFiles();
			for(int j =0;j<sample.length;j++){
				
				testSampleFile = desDir + sampleDir[i].getName()+"_"+sample[j].getName();
				FileReader samReader = new FileReader(sample[j]);
				BufferedReader samBR = new BufferedReader(samReader);
				FileWriter tsWriter = new FileWriter(new File(testSampleFile));
				while((word = samBR.readLine()) != null){
					if(wordMap.containsKey(word))
						tsWriter.append(word + "\n");
				}
				tsWriter.flush();
				tsWriter.close();
			}
		}
	
		//返回属性词典
		String[] terms = new String[wordMap.size()];
		int i = 0;
		Set<Map.Entry<String, Double>> allWords = wordMap.entrySet();
		for(Iterator<Map.Entry<String, Double>> it = allWords.iterator();it.hasNext();){
			Map.Entry<String, Double> me = it.next();
			terms[i] = me.getKey();
			i++;
		}
		
		return terms;
		
	}
	
	
	

	
	
}

3、Kmeans算法

Kmeans算法是非常经典的聚类算法，算法主要步骤如下：先选K个（或者随机选择）初始聚类点作为初始中心点，然后就算其他所有点到K个聚类中心点的距离，将点分到最近的聚类中。聚类完后，再次计算各个类中的中心点，中心点发生变化，于是更新中心点，然后再计算其他点到中心点的距离重新聚类，中心点又发生变化，如此迭代下去。

初始点选取策略：随机选，均匀抽样，最大最小法等....

距离的度量方法：1-余弦相似度，2-向量内积

算法停止条件：计算准则函数及设置最大迭代次数

空聚类的处理：注意空聚类导致的程序bug

package com.datamine.kmeans;

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.*;

/**
 * kmeans聚类算法的实现类，将newsgroup文档集聚成10类、20类、30类
 * 算法结束条件：当每个点最近的聚类中心点就是它所属的聚类中心点时，算法结束
 * @author Administrator
 *
 */
public class KmeansCluster {

	/**
	 * kmeans算法主过程
	 * @param allTestSampleMap 聚类算法测试样本map(已经向量化) <文件名，<特征词，TF-IDF值>>
	 * @param k 聚类的数量
	 * @return 聚类结果 <文件名，聚类完成后所属的类别号>
	 */
	private Map<String, Integer> doProcess(
			Map<String, Map<String, Double>> allTestSampleMap, int k) {
		
		//0、首先获取allTestSampleMap所有文件名顺序组成的数组
		String[] testSampleNames = new String[allTestSampleMap.size()];
		int count =0,tsLength = allTestSampleMap.size();
		Set<Map.Entry<String, Map<String,Double>>> allTestSampleMapSet = allTestSampleMap.entrySet();
		for(Iterator<Map.Entry<String, Map<String,Double>>> it = allTestSampleMapSet.iterator();it.hasNext();){
			Map.Entry<String, Map<String,Double>> me = it.next();
			testSampleNames[count++] = me.getKey();
		}
		
		//1、初始点的选择算法是随机选择或者是均匀分开选择，这里采用后者
		Map<Integer,Map<String,Double>> meansMap = getInitPoint(allTestSampleMap,k);
		double [][] distance = new double[tsLength][k]; //distance[i][k]记录点i到聚类中心k的距离
		
		//2、初始化k个聚类
		int[] assignMeans = new int[tsLength]; //记录所有点属于的聚类序号，初始化全部为0
		Map<Integer,Vector<Integer>> clusterMember = new TreeMap<Integer, Vector<Integer>>();//记录每个聚类的成员点序号
		Vector<Integer> mem = new Vector<Integer>();
		int iterNum = 0; //迭代次数
		
		while(true){
			System.out.println("Iteration No." + (iterNum++) + "-------------------------");
			//3、计算每个点和每个聚类中心的距离
			for(int i = 0;i < tsLength;i++){
				for(int j = 0;j<k;j++)
					distance[i][j] = getDistance(allTestSampleMap.get(testSampleNames[i]),meansMap.get(j));
			}
			
			//4、找出每个点最近的聚类中心
			int [] nearestMeans = new int[tsLength];
			for(int i = 0;i < tsLength;i++){
				nearestMeans[i] = findNearestMeans(distance,i);
			}
			
			//5、判断当前所有点属于的聚类序号是否已经全部是其离的最近的聚类，如果是或者达到最大的迭代次数，那么结束算法
			int okCount = 0;
			for(int i= 0;i<tsLength;i++){
				if(nearestMeans[i] == assignMeans[i])
					okCount ++;
			}
			System.out.println("okCount = " + okCount);
			if(okCount == tsLength || iterNum >= 10)
				break;
			
			//6、如果前面条件不满足，那么需要重新聚类再次进行一次迭代，需要修改每个聚类的成员和每个点属于的聚类信息
			clusterMember.clear();
			for(int i = 0;i < tsLength;i++){
				assignMeans[i] = nearestMeans[i];
				if(clusterMember.containsKey(nearestMeans[i])){
					clusterMember.get(nearestMeans[i]).add(i);
				}
				else{
					mem.clear();
					mem.add(i);
					Vector<Integer> tempMem = new Vector<Integer>();
					tempMem.addAll(mem);
					clusterMember.put(nearestMeans[i], tempMem);
				}
			}
			
			//7、重新计算每个聚类的中心点
			for(int i = 0;i<k;i++){
				
				if(!clusterMember.containsKey(i)) //注意kmeans可能产生空聚类
					continue;
				
				Map<String,Double> newMean = computeNewMean(clusterMember.get(i),allTestSampleMap,testSampleNames);
				Map<String,Double> tempMean = new TreeMap<String,Double>();
				tempMean.putAll(newMean);
				meansMap.put(i, tempMean);
			}
		
		}
		
		//8、形成聚类结果并且返回
 		Map<String,Integer> resMap = new TreeMap<String,Integer>();
		for(int i = 0;i<tsLength;i++){
			resMap.put(testSampleNames[i], assignMeans[i]);
		}
		
		return resMap;
	}
	
	/**
	 * 计算当前聚类的新中心，采用向量平均
	 * @param clusterM 该点到所有聚类中心的距离
	 * @param allTestSampleMap 所有测试样例 <文件名，向量>
	 * @param testSampleNames 所有测试样例名构成的数组
	 * @return 新的聚类中心向量
	 */
	private Map<String, Double> computeNewMean(Vector<Integer> clusterM,
			Map<String, Map<String, Double>> allTestSampleMap,
			String[] testSampleNames) {
		
		double memberNum = (double)clusterM.size();
		Map<String,Double> newMeanMap = new TreeMap<String,Double>();
		Map<String,Double> currentMemMap = new TreeMap<String, Double>();
		
		for(Iterator<Integer> it = clusterM.iterator();it.hasNext();){
			int me = it.next();
			currentMemMap = allTestSampleMap.get(testSampleNames[me]);
			Set<Map.Entry<String, Double>> currentMemMapSet = currentMemMap.entrySet();
			for(Iterator<Map.Entry<String, Double>> jt = currentMemMapSet.iterator();jt.hasNext();){
				Map.Entry<String, Double> ne = jt.next();
				if(newMeanMap.containsKey(ne.getKey()))
					newMeanMap.put(ne.getKey(), newMeanMap.get(ne.getKey())+ne.getValue());
				else
					newMeanMap.put(ne.getKey(), ne.getValue());
			}
		}
		
		Set<Map.Entry<String, Double>> newMeanMapSet = newMeanMap.entrySet();
		for(Iterator<Map.Entry<String, Double>> it = newMeanMapSet.iterator();it.hasNext();){
			Map.Entry<String, Double> me = it.next();
			newMeanMap.put(me.getKey(), newMeanMap.get(me.getKey()) / memberNum);
		}
		
		return newMeanMap;
	}

	/**
	 * 找出距离当前点最近的聚类中心
	 * @param distance 点到所有聚类中心的距离
	 * @param m 点（文本号）
	 * @return 最近聚类中心的序号j
	 */
	private int findNearestMeans(double[][] distance, int m) {
		
		double minDist = 10;
		int j = 0;
		for(int i = 0;i<distance[m].length;i++){
			if(distance[m][i] < minDist){
				minDist = distance[m][i];
				j = i;
			}
		}
		return j;
	}

	/**
	 * 计算两个点的距离
	 * @param map1 点1的向量map
	 * @param map2 点2的向量map
	 * @return 两个点的欧式距离
	 */
	private double getDistance(Map<String, Double> map1, Map<String, Double> map2) {

		return 1 - computeSim(map1,map2);
	}

	/**计算两个文本的相似度
	 * @param testWordTFMap 文本1的<单词,词频>向量
	 * @param trainWordTFMap 文本2<单词,词频>向量
	 * @return Double 向量之间的相似度 以向量夹角余弦计算（加上注释部分代码即可）或者向量内积计算（不加注释部分，效果相当而速度更快）
	 * @throws IOException 
	 */
	private double computeSim(Map<String, Double> testWordTFMap,
			Map<String, Double> trainWordTFMap) {
		// TODO Auto-generated method stub
		double mul = 0;//, testAbs = 0, trainAbs = 0;
		Set<Map.Entry<String, Double>> testWordTFMapSet = testWordTFMap.entrySet();
		for(Iterator<Map.Entry<String, Double>> it = testWordTFMapSet.iterator(); it.hasNext();){
			Map.Entry<String, Double> me = it.next();
			if(trainWordTFMap.containsKey(me.getKey())){
				mul += me.getValue()*trainWordTFMap.get(me.getKey());
			}
			//testAbs += me.getValue() * me.getValue();
		}
		//testAbs = Math.sqrt(testAbs);
		
		/*Set<Map.Entry<String, Double>> trainWordTFMapSet = trainWordTFMap.entrySet();
		for(Iterator<Map.Entry<String, Double>> it = trainWordTFMapSet.iterator(); it.hasNext();){
			Map.Entry<String, Double> me = it.next();
			trainAbs += me.getValue()*me.getValue();
		}
		trainAbs = Math.sqrt(trainAbs);*/
		return mul ;/// (testAbs * trainAbs);
	}

	/**
	 * 获取kmeans算法迭代的初始点
	 * @param allTestSampleMap <文件名，<特征词，TF-IDF值>>
	 * @param k 聚类的数量
	 * @return  meansMap k个聚类的中心点向量
	 */
	private Map<Integer, Map<String, Double>> getInitPoint(
			Map<String, Map<String, Double>> allTestSampleMap, int k) {
		
		int count = 0, i = 0;
		//保存k个聚类的中心向量
		Map<Integer,Map<String,Double>> meansMap = new TreeMap<Integer, Map<String,Double>>();
		System.out.println("本次聚类的初始点对应的文件为：");
		Set<Map.Entry<String, Map<String,Double>>> allTestSampleMapSet = allTestSampleMap.entrySet();
		for(Iterator<Map.Entry<String, Map<String,Double>>> it = allTestSampleMapSet.iterator();it.hasNext();){
			Map.Entry<String, Map<String,Double>> me = it.next();
			if(count == i*allTestSampleMapSet.size() / k){
				meansMap.put(i, me.getValue());
				System.out.println(me.getKey());
				i++;
			}
			count++ ;
		}
		
		return meansMap;
	}

	/**
	 * 输出聚类结果到文件中
	 * @param kmeansClusterResult 聚类结果
	 * @param kmeansClusterResultFile 输出聚类结果到文件中
	 * @throws IOException 
	 */
	private void printClusterResult(Map<String, Integer> kmeansClusterResult,
			String kmeansClusterResultFile) throws IOException {

		FileWriter resultWriter = new FileWriter(kmeansClusterResultFile);
		Set<Map.Entry<String, Integer>> kmeansClusterResultSet = kmeansClusterResult.entrySet();
		for(Iterator<Map.Entry<String, Integer>> it = kmeansClusterResultSet.iterator();it.hasNext();){
			Map.Entry<String, Integer> me = it.next();
			resultWriter.append(me.getKey()+" "+me.getValue()+"\n");
		}
		resultWriter.flush();
		resultWriter.close();
	}
	
	/**
	 * 评估函数根据聚类结果文件统计熵 和 混淆矩阵
	 * @param kmeansClusterResultFile 聚类结果文件
	 * @param k 聚类数目
	 * @return 聚类结果的熵值
	 * @throws IOException 
	 */
	private double evaluateClusterResult(String kmeansClusterResultFile, int k) throws IOException {

		Map<String,String> rightCate = new TreeMap<String, String>();
		Map<String,String> resultCate = new TreeMap<String, String>();
		FileReader crReader = new FileReader(kmeansClusterResultFile);
		BufferedReader crBR  = new BufferedReader(crReader);
		String[] s;
		String line;
		while((line = crBR.readLine()) != null){
			s = line.split(" ");
			resultCate.put(s[0], s[1]);
			rightCate.put(s[0], s[0].split("_")[0]);
		}
		crBR.close();
		return computeEntropyAndConfuMatrix(rightCate,resultCate,k);//返回熵
	}
	
	/**
	 * 计算混淆矩阵并输出，返回熵
	 * @param rightCate 正确的类目对应map
	 * @param resultCate 聚类结果对应map
	 * @param k 聚类的数目
	 * @return 返回聚类熵
	 */
	private double computeEntropyAndConfuMatrix(Map<String, String> rightCate,
			Map<String, String> resultCate, int k) {
		
		//k行20列，[i,j]表示聚类i中属于类目j的文件数
		int[][] confusionMatrix = new int[k][20];
		
		//首先求出类目对应的数组索引
		SortedSet<String> cateNames = new TreeSet<String>();
		Set<Map.Entry<String, String>> rightCateSet = rightCate.entrySet();
		for(Iterator<Map.Entry<String, String>> it = rightCateSet.iterator();it.hasNext();){
			Map.Entry<String, String> me = it.next();
			cateNames.add(me.getValue());
		}
		
		String[] cateNamesArray = cateNames.toArray(new String[0]);
		Map<String,Integer> cateNamesToIndex = new TreeMap<String, Integer>();
		for(int i =0;i < cateNamesArray.length ;i++){
			cateNamesToIndex.put(cateNamesArray[i], i);
		}
		
		for(Iterator<Map.Entry<String, String>> it = rightCateSet.iterator();it.hasNext();){
			Map.Entry<String, String> me = it.next();
			confusionMatrix[Integer.parseInt(resultCate.get(me.getKey()))][cateNamesToIndex.get(me.getValue())]++;
		}
		
		//输出混淆矩阵
		double [] clusterSum = new double[k]; //记录每个聚类的文件数
		double [] everyClusterEntropy = new double[k]; //记录每个聚类的熵
		double clusterEntropy = 0;
		
		System.out.print("      ");
		
		for(int i=0;i<20;i++){
			System.out.printf("%-6d",i);
		}
		
		System.out.println();
		
		for(int i =0;i<k;i++){
			System.out.printf("%-6d",i);
			for(int j = 0;j<20;j++){
				clusterSum[i] += confusionMatrix[i][j];
				System.out.printf("%-6d",confusionMatrix[i][j]);
			}
			System.out.println();
		}
		System.out.println();
		
		//计算熵值
		for(int i = 0;i<k;i++){
			if(clusterSum[i] != 0){
				for(int j = 0;j< 20 ;j++){
					double p = (double)confusionMatrix[i][j]/clusterSum[i];
					if(p!=0)
						everyClusterEntropy[i] += -p * Math.log(p); 
				}
				clusterEntropy += clusterSum[i]/(double)rightCate.size() * everyClusterEntropy[i];  
			}
		}
		return clusterEntropy;
	}

	public void KmeansClusterMain(String testSampleDir) throws IOException {
		
		//首先计算文档TF-IDF向量，保存为Map<String,Map<String,Double>> 即为Map<文件名,Map<特征词，TF-IDF值>>
		ComputeWordsVector computV = new ComputeWordsVector();
		
		//int k[] = {10,20,30}; 三组分类
		int k[] = {20};
		
		Map<String,Map<String,Double>> allTestSampleMap = computV.computeTFMultiIDF(testSampleDir);
		
		for(int i =0;i<k.length;i++){
			System.out.println("开始聚类，聚成"+k[i]+"类");
			String KmeansClusterResultFile = "E:\\DataMiningSample\\KmeansClusterResult\\";
			Map<String,Integer> KmeansClusterResult = new TreeMap<String, Integer>();
			KmeansClusterResult = doProcess(allTestSampleMap,k[i]);
			KmeansClusterResultFile += k[i];
			printClusterResult(KmeansClusterResult,KmeansClusterResultFile);
			System.out.println("The Entropy for this Cluster is " + evaluateClusterResult(KmeansClusterResultFile,k[i]));
		}
		
	}
	
	
	public static void main(String[] args) throws IOException {
		
		KmeansCluster test = new KmeansCluster();
		
		String KmeansClusterResultFile = "E:\\DataMiningSample\\KmeansClusterResult\\20";
		System.out.println("The Entropy for this Cluster is " + test.evaluateClusterResult(KmeansClusterResultFile,20));
	}


	
}

4、程序入口

package com.datamine.kmeans;

import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Date;

public class ClusterMain {

	/**
	 * Kmeans 聚类主程序入口
	 * @param args
	 * @throws IOException 
	 */
	public static void main(String[] args) throws IOException {
		
		//数据预处理 在分类算法中已经实现 这里（略）
		
		ComputeWordsVector computeV = new ComputeWordsVector();
		
		KmeansCluster kmeansCluster = new KmeansCluster();
		
		String srcDir = "E:\\DataMiningSample\\processedSample\\";
		String desDir = "E:\\DataMiningSample\\clusterTestSample\\";
		
		SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
		String beginTime = sdf.format(new Date());
		System.out.println("程序开始执行时间："+beginTime);
		
		String[] terms = computeV.createTestSamples(srcDir,desDir);
		kmeansCluster.KmeansClusterMain(desDir);
		
		String endTime = sdf.format(new Date());
		System.out.println("程序结束执行时间："+endTime);
		
	}
	
	
}

5、聚类结果

程序开始执行时间：2016-03-14 17:02:38
special words map sizes:3832
the total number of test files is 18828
开始聚类，聚成20类
本次聚类的初始点对应的文件为：
alt.atheism_49960
comp.graphics_38307
comp.os.ms-windows.misc_10112
comp.sys.ibm.pc.hardware_58990
comp.sys.mac.hardware_50449
comp.windows.x_66402
comp.windows.x_68299
misc.forsale_76828
rec.autos_103685
rec.motorcycles_105046
rec.sport.baseball_104941
rec.sport.hockey_54126
sci.crypt_15819
sci.electronics_54016
sci.med_59222
sci.space_61185
soc.religion.christian_20966
talk.politics.guns_54517
talk.politics.mideast_76331
talk.politics.misc_178699
Iteration No.0-------------------------
okCount = 512
Iteration No.1-------------------------
okCount = 10372
Iteration No.2-------------------------
okCount = 15295
Iteration No.3-------------------------
okCount = 17033
Iteration No.4-------------------------
okCount = 17643
Iteration No.5-------------------------
okCount = 18052
Iteration No.6-------------------------
okCount = 18282
Iteration No.7-------------------------
okCount = 18404
Iteration No.8-------------------------
okCount = 18500
Iteration No.9-------------------------
okCount = 18627
      0     1     2     3     4     5     6     7     8     9     10    11    12    13    14    15    16    17    18    19    
0     482   0     3     3     1     1     0     5     2     1     0     0     2     27    11    53    4     6     15    176   
1     4     601   69    8     14    127   7     5     5     8     0     14    31    16    34    2     2     2     1     5     
2     1     64    661   96    18    257   26    9     3     0     0     13    25    13    6     2     3     2     6     2     
3     0     56    78    575   213   15    119   15    6     2     1     4     131   2     4     2     6     0     2     1     
4     1     25    13    151   563   11    50    3     3     1     2     14    125   4     8     1     0     3     0     0     
5     2     28    78    25    37    348   13    2     0     0     2     5     38    5     6     2     1     1     2     8     
6     20    80    24    21    23    166   38    45    45    26    10    37    87    34    27    22    15    8     35    12    
7     4     20    6     24    45    6     629   28    20    14    0     3     87    10    4     1     8     0     13    0     
8     0     2     1     10    8     4     25    781   40    1     1     0     70    5     10    2     8     4     2     3     
9     4     2     11    0     1     1     11    34    831   1     0     1     7     7     0     1     1     1     8     0     
10    10    7     6     2     4     1     7     7     4     633   4     5     11    18    9     5     13    8     10    3     
11    1     0     1     9     4     1     20    1     3     286   961   0     17    8     4     2     2     0     5     3     
12    3     14    0     6     1     2     2     0     1     1     0     858   51    1     1     2     16    8     69    4     
13    3     15    4     7     7     17    5     12    8     5     2     5     46    13    793   6     5     2     30    5     
14    2     4     0     1     0     2     4     6     3     4     4     2     14    746   3     1     2     3     55    11    
15    30    43    29    39    15    18    12    13    7     3     4     13    195   38    36    5     6     18    5     11    
16    195   1     0     2     0     1     1     0     4     1     4     1     4     16    6     846   3     6     16    274   
17    8     2     0     2     4     2     1     5     7     0     0     10    30    12    5     28    363   9     289   23    
18    19    1     0     0     2     0     0     6     0     1     1     3     1     3     2     9     8     843   48    18    
19    10    8     1     1     1     0     2     13    2     6     3     3     9     12    18    5     444   16    164   69    

The Entropy for this Cluster is 1.2444339205006887
程序结束执行时间：2016-03-14 17:08:24

《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
【Python机器学习】2.2. 聚类分析算法理论：K均值聚类(KMeans Analysis)、KNN(K近邻分类)、均值漂移聚类(MeanShift) SomeB1oody Python机器学习机器学习算法 python 聚类分类算法
喜欢的话别忘了点赞、收藏加关注哦（关注即可查看全文），对接下来的教程有兴趣的可以关注专栏。谢谢喵！(=･ω･=)2.2.1.K均值聚类(KMeansAnalysis)K均值算法是以空间中K个点为中心进行聚类，对最靠近他们的对象归类，是聚类算法中最为基础但也最为重要的算法。数学原理计算数据点与各簇中心点的距离：dist(xi,ujt){dist}(x_i,u_j^t)dist(xi,ujt)然后根据
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
大数据技术【7】星绘搜题 big data 数据挖掘大数据
1.目前所获取的总数据量的80%以上都是（）数据。。A.结构化B.非结构化C.文本D.半结构化2.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.③①②④b.①②③④c.①④③②d.④③②①A.③①②④B.①②③④C.①④③②D.④③②①3.利用先验原理可以帮助减少频繁项集产生时需要探查的
文本挖掘+情感分析+主题建模+K-Meas聚类+词频统计+词云（景区游客评论情感分析）请为小H留灯聚类机器学习支持向量机人工智能深度学习
本文通过情感分析技术对景区游客评论进行深入挖掘，结合数据预处理、情感分类和文本挖掘，分析游客评价与情感倾向。利用朴素贝叶斯和SVM等模型进行情感预测，探讨满意度与情感的关系。通过KMeans聚类和LDA主题分析，提取游客关心的话题，提供优化建议，为未来研究提供方向。1.引言1.1背景与目的1.2旅游业发展与游客评论的重要性2.数据处理与分析2.1数据加载与预处理2.2游客评分与点赞量分析3.评论内
自然语言处理：文本聚类老赵爱学习 python 文本聚类 k均值聚类算法高斯混合模型的最大期望值算法无监督朴素贝叶斯模型自然语言处理人工智能
介绍大家好，博主又来和大家分享自然语言处理领域的知识了。今天给大家分享的内容是自然语言处理中的文本聚类。文本聚类在自然语言处理领域占据着重要地位，它能将大量无序的文本按照内容的相似性自动划分成不同的类别，极大地提高了文本处理和信息提取的效率。就好比在一个大型图书馆中，文本聚类能够像智能管理员一样，把各种书籍按照主题分类摆放，方便读者快速找到所需资料。而实现文本聚类的方法有很多，其中k均值聚类算法、
KMeans实战——聚类和轮廓系数评估啤酒数据集巷955 机器学习人工智能
原理：在数据分析和机器学习中，聚类是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本相似度较高，而不同簇之间的样本相似度较低。KMeans算法是其中最常用的聚类算法之一。本文将介绍如何使用KMeans算法对啤酒数据集进行聚类，并使用轮廓系数（SilhouetteScore）来评估聚类结果的质量。1.数据准备首先，我们需要导入必要的库并加载数据集。本文使用的数据集是一
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
[Machine Learning] K-means算法进阶的小蜉蝣 machine learning 算法 kmeans 机器学习
HuBERT预训练过程中会用到K-means算法，本文简单介绍一下K-means算法的基本流程。简单地讲，K-means就是给特征向量集进行聚类。给定一个特征向量集{X}和目标聚类数N，K-means会不断迭代，直到X被分成N类，且每一类的中心点不再明显变化。先看一个简单例子：fromsklearn.clusterimportKMeansimportnumpyasnpimportmatplotli
AI人工智能机器学习之聚类分析 rockfeng0 人工智能机器学习 sklearn
1、概要本篇学习AI人工智能机器学习之聚类分析，以KMeans、AgglomerativeClustering、DBSCAN为例，从代码层面讲述机器学习中的聚类分析。2、聚类分析-简介聚类分析是一种无监督学习的方法，用于将数据集中的样本划分为不同的组（簇），使得同一组中的样本相似度较高，而不同组之间的样本相似度较低。sklearn.cluster提供了多种聚类算法K均值聚类（K-MeansCl
KMeans聚类实战2 浊酒南街 #kmeans 聚类 python
目录NBA球员聚类--未知k值的情况NBA球员聚类–未知k值的情况#导入第三方模块importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearnimportmetricsimportseabornassnsfromsklearnimportpreprocess
KMeans聚类实战1 浊酒南街 #kmeans 聚类算法
目录iris聚类--已知k值的情况iris聚类–已知k值的情况#导入第三方模块importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearnimportmetricsimportseabornassns#读取iris数据集iris=pd.read_csv(r'
回归与聚类算法————无监督学习-K-means算法荷泽泽机器学习 python
目录1、无监督学习2、K-means原理3，API4、Kmeans性能评估指标4.1轮廓系数4.2轮廓系数API5，总结1、无监督学习没有目标值的，从无标签的数据开始学习的聚类K-means(K均值聚类)降维PCA2、K-means原理随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别接着对着标记的聚类中心之后，重新计算出每
自定义数据集，使用scikit-learn 中K均值包进行聚类 sirius12345123 scikit-learn 均值算法
importmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansimportnumpyasnpclass1_points=np.array([[1.9,1.2],[1.5,2.1],[1.9,0.5],[1.5,0.9],[0.9,1.2],[1.1,1.7],[1.4,1.1]])class2_points=np.array([[-1.9,1
自定义数据集，使用scikit-learn 中K均值包进行聚类〖是♂我〗 scikit-learn 均值算法聚类
代码：#导入必要的库importmatplotlib.pyplotasplt#用于绘制图形fromsklearn.clusterimportKMeans#KMeans聚类算法importnumpyasnp#数值计算库#定义class1到class4的数据点，模拟四个不同的类（每个类7个二维点）class1_points=np.array([[1.9,1.2],[1.5,2.1],[1.9,0.5]
python（scikit-learn）实现k均值聚类算法嘿哈哈哈哈哈哈机器学习聚类 python 算法机器学习人工智能
k均值聚类算法原理详解示例为链接中的例题直接调用python机器学习的库scikit-learn中k均值算法的相关方法fromsklearn.clusterimportKMeansimportnumpyasnpimportmatplotlib.pyplotaspltx=np.array([[0,2],[0,0],[1,0],[5,0],[5,2]])#计算k均值聚类kmeans=KMeans(n_
Scikit-learn_聚类算法_K均值聚类飞Link Water 算法机器学习人工智能
一.描述首先从X数据集中选择k个样本作为质心，然后重复以下两个步骤来更新质心，直到质心不再显著移动为：第一步将每个样本分配到距离最近的质心第二步根据每二个质心所有样本的平均值来创建新的质心二.用法和参数KMeans类MiniBatchKMeans类：是KMeans类的变种，他是用小批量来减少计算时间，而多个批次仍然尝试优化相同的目标函数。小批量是输入数据的子集，是每次训练迭代中的随机抽样。小批量大
毕设分享基于Kmeans的图像分割算法软件设计 bee_dc 毕业设计毕设大数据
文章目录0简介1Kmeans聚类算法基本原理2基于Kmeans图像分割算法流程4代码运行结果及评价5最后0简介今天学长向大家分享一个毕业设计项目毕业设计基于Kmeans的图像分割算法软件设计项目运行效果：毕业设计基于kmean的图像分割项目分享:见文末!1Kmeans聚类算法基本原理K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的
Kmeans与KMedoids聚类对比以及python实现呵呵爱吃菜 kmeans 聚类 python
在机器学习领域，聚类算法是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本尽可能相似，而不同簇之间的样本尽可能不同。K-Means和K-Medoids是两种经典的聚类算法，它们都基于划分的思想，但在具体实现和应用场景上存在一些差异。一、算法原理1.K-Means:中心点选择:K-Means算法通过计算簇内所有样本的均值来确定中心点（centroid）。距离度量:通常
多维偏好分析及其在实际决策中的应用：基于PCA-KMeans的数据降维与模式识别方法
多维偏好分析（MultidimensionalPreferenceAnalysis,MPA）是一种在市场营销、心理学和公共政策等领域广泛应用的分析工具，用于研究多维度下的复杂偏好决策过程。在高维数据集中，当属性与偏好之间存在非线性关系或维度重叠时，偏好的理解和可视化呈现出显著的技术挑战。本文本将研究采用主成分分析（PrincipalComponentAnalysis,PCA）和K均值聚类算法对鸢尾
[Python数据分析]最通俗入门Kmeans聚类分析，可视化展示代码。 William数据分析 python kmeans 数据分析分类机器学习 python
什么是k-means分析？【头条@William数据分析，看原版】想象一下，你有一堆五颜六色的糖果，你想把它们按照颜色分成几堆。k-means分析就是这么一个自动分类的过程。它会根据糖果的颜色特征，把它们分成若干个组，每个组里的糖果颜色都比较相似。更专业一点说，k-means分析是一种常用的聚类算法，它会将数据集中的数据点分成k个不同的簇。每个簇都有一个中心点，这个中心点就是簇中所有数据点的平均值
Spark入门：KMeans聚类算法 17111_Chaochao1984a 算法 spark kmeans
聚类（Clustering）是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性，根据某一给定的相似度度量方式（如欧式距离）找到相似的样本，并根据距离将样本划分成不同的组。聚类属于典型的无监督学习（UnsupervisedLearning）方法。与监督学习（如分类器）相比1，无监督学习的训练集没有人为标注的结果。在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。
Spark MLlib模型训练—聚类算法 Bisecting K-means 不二人生 Spark ML 实战算法 spark-ml 聚类
SparkMLlib模型训练—聚类算法BisectingK-means由于传统的KMeans算法的聚类结果易受到初始聚类中心点选择的影响，因此在传统的KMeans算法的基础上进行算法改进，对初始中心点选取比较严格，各中心点的距离较远，这就避免了初始聚类中心会选到一个类上，一定程度上克服了算法陷入局部最优状态。二分KMeans(BisectingKMeans)算法的主要思想是：首先将所有点作为一个簇
自然语言处理系列五十四》文本聚类算法》K-means文本聚类算法原理陈敬雷-充电了么-CEO兼CTO 算法大数据人工智能自然语言处理 nlp ai 人工智能 kmeans AIGC 聚类
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十四文本聚类算法》K-means文本聚类算法原理K-means文本聚类算法代码实战总结自然语言处理系列五十四文本聚类算法》K-means文本聚类算法原理K-means文本聚类是K-means算法的一个常用应用场景，下面介绍
自然语言处理系列五十五》文本聚类算法》LDA主题词-潜在狄利克雷分布模型算法原理陈敬雷-充电了么-CEO兼CTO 人工智能大数据算法算法自然语言处理聚类 AIGC aigc chatgpt 大数据
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十五文本聚类算法》LDA主题词-潜在狄利克雷分布模型算法原理LDA主题词-潜在狄利克雷分布模型代码实战总结自然语言处理系列五十五文本聚类算法》LDA主题词-潜在狄利克雷分布模型算法原理LDA是潜在狄利克雷分布模型的简称，也
程序猿成长之路之数据挖掘篇——Kmeans聚类算法 zygswo 数据挖掘数据挖掘算法 kmeans
Kmeans是一种可以将一个数据集按照距离（相似度）划分成不同类别的算法，它无需借助外部标记，因此也是一种无监督学习算法。什么是聚类用官方的话说聚类就是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。用自己的话说聚类是根据不同样本数据间的相似度进行种类划分的算法。这种划分可以基于我们的业务需求或建模需求来完成，也可以单纯地帮助我们探索数据的自然结构和分布。什么是K-means聚类用官方的
聚类算法-Kmeans聚类红米煮粥机器学习 kmeans 聚类
一、K-means聚类介绍1.含义K-means聚类是一种非常流行的无监督学习算法，用于将数据点划分为预定义的K个簇（或组），其中每个簇由其质心（即簇中所有点的均值）定义。K-means算法的目标是使簇内的点尽可能紧密地聚集在一起，同时使不同簇之间的点尽可能远离。2.基本步骤：选择K值：首先，你需要决定将数据分成多少个簇，即K的值。K的选择通常是基于问题的上下文或通过一些启发式方法（如肘部法则）来
机器学习 | 距离计算 X1AO___X1A 机器学习基础无监督学习 #聚类算法机器学习无监督学习聚类距离计算
文章目录距离计算1.闵可夫斯基距离（有序属性）1.1曼哈顿距离1.2欧氏距离2.VDM距离（无序属性）3.MinkovDM距离（混合属性）4.加权距离（重要性不同）参考资料相关文章：机器学习|目录机器学习|聚类评估指标无监督学习|KMeans与KMeans++原理无监督学习|KMeans之Skleaen实现：电影评分聚类距离计算对函数dist(⋅,⋅)dist(\cdot,\cdot)dist(⋅
GWO优化kmeans 2301_78492934 机器学习算法人工智能 matlab kmeans 聚类
GWO（灰狼优化器）是一种群体智能优化算法，它模拟了灰狼的社会结构和狩猎行为。GWO算法通过模拟灰狼的等级制度、狩猎策略和搜索机制来寻找问题的最优解。而K-means是一种经典的聚类算法，用于将数据点划分为K个簇。将GWO优化算法应用于K-means聚类中，主要是为了解决K-means算法对初始簇中心敏感和容易陷入局部最优解的问题。以下是GWO优化K-means的原理和过程的详细介绍：1.GWO算
SPSSAU【文本分析】|文本聚类 spssau 支持向量机机器学习人工智能
SPSSAU共提供两种文本聚类方式，分别是按词聚类和按行聚类。按词聚类是指将需要分析的关键词进行聚类分析，并且进行可视化展示，即针对关键词进行聚类，此处关键词可以自由选择。按行聚类分析是指针对以‘行’为单位进行聚类分析，将原始文本中多行数据聚为几个类别，并且可将具体聚类类别信息进行下载等。按词聚类分析按词聚类分析操作如下图：默认情况下，系统会将词频靠前的20个关键词提取，并且得到其词向量值，并且其
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">