小江_xiaojiang

文本聚类——Kmeans

上两篇文章分别用朴素贝叶斯算法和KNN算法对newgroup文本进行了分类测试，本文使用Kmeans算法对文本进行聚类。

1、文本预处理

文本预处理在前面两本文章中已经介绍，此处（略）。

2、文本向量化

package com.datamine.kmeans;

import java.io.*;
import java.util.*;
import java.util.Map.Entry;

/**
 * 计算文档的属性向量，将所有文档向量化
 * @author Administrator
 */
public class ComputeWordsVector {

	/**
	 * 计算文档的TF-IDF属性向量，返回Map<文件名，<特征词，TF-IDF值>>
	 * @param testSampleDir 处理好的聚类样本测试样例集
	 * @return 所有测试样例的属性向量构成的map
	 * @throws IOException
	 */
	public Map> computeTFMultiIDF(String testSampleDir) throws IOException{
		
		String word;
		Map> allTestSampleMap = new TreeMap>();
		Map idfPerWordMap = computeIDF(testSampleDir);
		Map tfPerDocMap = new TreeMap();
		
		File[] samples = new File(testSampleDir).listFiles();
		System.out.println("the total number of test files is " + samples.length);
		for(int i = 0;i> tempTF = tfPerDocMap.entrySet();
			for(Iterator> mt = tempTF.iterator();mt.hasNext();){
				Map.Entry me = mt.next();
				if(me.getValue() > maxCount)
					maxCount = me.getValue();
			}
			
			for(Iterator> mt = tempTF.iterator();mt.hasNext();){
				Map.Entry me = mt.next();
				Double IDF = Math.log(samples.length / idfPerWordMap.get(me.getKey()));
				wordWeight = (me.getValue() / wordSumPerDoc) * IDF;
				tfPerDocMap.put(me.getKey(), wordWeight);
			}
			TreeMap tempMap = new TreeMap();
			tempMap.putAll(tfPerDocMap);
			allTestSampleMap.put(samples[i].getName(), tempMap);
		}
		printTestSampleMap(allTestSampleMap);
		return allTestSampleMap;
	}
	
	/**
	 * 输出测试样例map内容，用于测试
	 * @param allTestSampleMap
	 * @throws IOException 
	 */
	private void printTestSampleMap(
			Map> allTestSampleMap) throws IOException {
		// TODO Auto-generated method stub
		File outPutFile = new File("E:/DataMiningSample/KmeansClusterResult/allTestSampleMap.txt");
		FileWriter outPutFileWriter = new FileWriter(outPutFile);
		Set>> allWords = allTestSampleMap.entrySet();
		
		for(Iterator>> it = allWords.iterator();it.hasNext();){
			
			Map.Entry> me = it.next();
			outPutFileWriter.append(me.getKey()+" ");
			
			Set> vectorSet = me.getValue().entrySet();
			for(Iterator> vt = vectorSet.iterator();vt.hasNext();){
				Map.Entry vme = vt.next();
				outPutFileWriter.append(vme.getKey()+" "+vme.getValue()+" ");
			}
			outPutFileWriter.append("\n");
			outPutFileWriter.flush();
		}
		outPutFileWriter.close();
		
	}

	/**
	 * 统计每个词的总出现次数，返回出现次数大于n次的词汇构成最终的属性词典
	 * @param strDir 处理好的newsgroup文件目录的绝对路径
	 * @param wordMap 记录出现的每个词构成的属性词典
	 * @return newWordMap 返回出现次数大于n次的词汇构成最终的属性词典
	 * @throws IOException
	 */
	public SortedMap countWords(String strDir,
			Map wordMap) throws IOException {
		
		File sampleFile = new File(strDir);
		File[] sample = sampleFile.listFiles();
		String word;
		
		for(int i =0 ;i < sample.length;i++){
			
			if(!sample[i].isDirectory()){
				FileReader samReader = new FileReader(sample[i]);
				BufferedReader samBR = new BufferedReader(samReader);
				while((word = samBR.readLine()) != null){
					if(!word.isEmpty() && wordMap.containsKey(word))
						wordMap.put(word, wordMap.get(word)+1);
					else
						wordMap.put(word, 1.0);
				}
				samBR.close();
			}else{
				countWords(sample[i].getCanonicalPath(),wordMap);
			}
		}
		
		/*
		 * 去除停顿词后，先用DF算法选取特征词，后面再加入特征词的选取算法
		 */
		SortedMap newWordMap = new TreeMap();
		Set> allWords = wordMap.entrySet();
		for(Iterator> it = allWords.iterator();it.hasNext();){
			Map.Entry me = it.next();
			if(me.getValue() > 100) //DF算法降维
				newWordMap.put(me.getKey(), me.getValue());
		}
		
		return newWordMap;
	}
	
	/**
	 * 计算IDF，即属性词典中每个词在多少个文档中出现过
	 * @param testSampleDir 聚类算法测试样本所在的目录
	 * @return 单词IDFmap <单词，包含该单词的文档数>
	 * @throws IOException
	 */
	public Map computeIDF(String testSampleDir) throws IOException{
		
		Map IDFPerWordMap = new TreeMap();
		//记下当前已经遇到过的该文档中的词
		Set alreadyCountWord = new HashSet();
		String word;
		File[] samples = new File(testSampleDir).listFiles();
		for(int i = 0;i wordMap = new TreeMap();
		wordMap = countWords(srcDir,wordMap);
		System.out.println("special words map sizes:" + wordMap.size());
		String word,testSampleFile;
		
		File[] sampleDir = new File(srcDir).listFiles();
		for(int i =0;i> allWords = wordMap.entrySet();
		for(Iterator> it = allWords.iterator();it.hasNext();){
			Map.Entry me = it.next();
			terms[i] = me.getKey();
			i++;
		}
		
		return terms;
		
	}
	
	
	

	
	
}

3、Kmeans算法

Kmeans算法是非常经典的聚类算法，算法主要步骤如下：先选K个（或者随机选择）初始聚类点作为初始中心点，然后就算其他所有点到K个聚类中心点的距离，将点分到最近的聚类中。聚类完后，再次计算各个类中的中心点，中心点发生变化，于是更新中心点，然后再计算其他点到中心点的距离重新聚类，中心点又发生变化，如此迭代下去。

初始点选取策略：随机选，均匀抽样，最大最小法等....

距离的度量方法：1-余弦相似度，2-向量内积

算法停止条件：计算准则函数及设置最大迭代次数

空聚类的处理：注意空聚类导致的程序bug

package com.datamine.kmeans;

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.*;

/**
 * kmeans聚类算法的实现类，将newsgroup文档集聚成10类、20类、30类
 * 算法结束条件：当每个点最近的聚类中心点就是它所属的聚类中心点时，算法结束
 * @author Administrator
 *
 */
public class KmeansCluster {

	/**
	 * kmeans算法主过程
	 * @param allTestSampleMap 聚类算法测试样本map(已经向量化) <文件名，<特征词，TF-IDF值>>
	 * @param k 聚类的数量
	 * @return 聚类结果 <文件名，聚类完成后所属的类别号>
	 */
	private Map doProcess(
			Map> allTestSampleMap, int k) {
		
		//0、首先获取allTestSampleMap所有文件名顺序组成的数组
		String[] testSampleNames = new String[allTestSampleMap.size()];
		int count =0,tsLength = allTestSampleMap.size();
		Set>> allTestSampleMapSet = allTestSampleMap.entrySet();
		for(Iterator>> it = allTestSampleMapSet.iterator();it.hasNext();){
			Map.Entry> me = it.next();
			testSampleNames[count++] = me.getKey();
		}
		
		//1、初始点的选择算法是随机选择或者是均匀分开选择，这里采用后者
		Map> meansMap = getInitPoint(allTestSampleMap,k);
		double [][] distance = new double[tsLength][k]; //distance[i][k]记录点i到聚类中心k的距离
		
		//2、初始化k个聚类
		int[] assignMeans = new int[tsLength]; //记录所有点属于的聚类序号，初始化全部为0
		Map> clusterMember = new TreeMap>();//记录每个聚类的成员点序号
		Vector mem = new Vector();
		int iterNum = 0; //迭代次数
		
		while(true){
			System.out.println("Iteration No." + (iterNum++) + "-------------------------");
			//3、计算每个点和每个聚类中心的距离
			for(int i = 0;i < tsLength;i++){
				for(int j = 0;j>> allTestSampleMapSet = allTestSampleMap.entrySet();
		for(Iterator>> it = allTestSampleMapSet.iterator();it.hasNext();){
			Map.Entry> me = it.next();
			if(count == i*allTestSampleMapSet.size() / k){
				meansMap.put(i, me.getValue());
				System.out.println(me.getKey());
				i++;
			}
			count++ ;
		}
		
		return meansMap;
	}

	/**
	 * 输出聚类结果到文件中
	 * @param kmeansClusterResult 聚类结果
	 * @param kmeansClusterResultFile 输出聚类结果到文件中
	 * @throws IOException 
	 */
	private void printClusterResult(Map kmeansClusterResult,
			String kmeansClusterResultFile) throws IOException {

		FileWriter resultWriter = new FileWriter(kmeansClusterResultFile);
		Set> kmeansClusterResultSet = kmeansClusterResult.entrySet();
		for(Iterator> it = kmeansClusterResultSet.iterator();it.hasNext();){
			Map.Entry me = it.next();
			resultWriter.append(me.getKey()+" "+me.getValue()+"\n");
		}
		resultWriter.flush();
		resultWriter.close();
	}
	
	/**
	 * 评估函数根据聚类结果文件统计熵 和 混淆矩阵
	 * @param kmeansClusterResultFile 聚类结果文件
	 * @param k 聚类数目
	 * @return 聚类结果的熵值
	 * @throws IOException 
	 */
	private double evaluateClusterResult(String kmeansClusterResultFile, int k) throws IOException {

		Map rightCate = new TreeMap();
		Map resultCate = new TreeMap();
		FileReader crReader = new FileReader(kmeansClusterResultFile);
		BufferedReader crBR  = new BufferedReader(crReader);
		String[] s;
		String line;
		while((line = crBR.readLine()) != null){
			s = line.split(" ");
			resultCate.put(s[0], s[1]);
			rightCate.put(s[0], s[0].split("_")[0]);
		}
		crBR.close();
		return computeEntropyAndConfuMatrix(rightCate,resultCate,k);//返回熵
	}
	
	/**
	 * 计算混淆矩阵并输出，返回熵
	 * @param rightCate 正确的类目对应map
	 * @param resultCate 聚类结果对应map
	 * @param k 聚类的数目
	 * @return 返回聚类熵
	 */
	private double computeEntropyAndConfuMatrix(Map rightCate,
			Map resultCate, int k) {
		
		//k行20列，[i,j]表示聚类i中属于类目j的文件数
		int[][] confusionMatrix = new int[k][20];
		
		//首先求出类目对应的数组索引
		SortedSet cateNames = new TreeSet();
		Set> rightCateSet = rightCate.entrySet();
		for(Iterator> it = rightCateSet.iterator();it.hasNext();){
			Map.Entry me = it.next();
			cateNames.add(me.getValue());
		}
		
		String[] cateNamesArray = cateNames.toArray(new String[0]);
		Map cateNamesToIndex = new TreeMap();
		for(int i =0;i < cateNamesArray.length ;i++){
			cateNamesToIndex.put(cateNamesArray[i], i);
		}
		
		for(Iterator> it = rightCateSet.iterator();it.hasNext();){
			Map.Entry me = it.next();
			confusionMatrix[Integer.parseInt(resultCate.get(me.getKey()))][cateNamesToIndex.get(me.getValue())]++;
		}
		
		//输出混淆矩阵
		double [] clusterSum = new double[k]; //记录每个聚类的文件数
		double [] everyClusterEntropy = new double[k]; //记录每个聚类的熵
		double clusterEntropy = 0;
		
		System.out.print("      ");
		
		for(int i=0;i<20;i++){
			System.out.printf("%-6d",i);
		}
		
		System.out.println();
		
		for(int i =0;i> 即为Map<文件名,Map<特征词，TF-IDF值>>
		ComputeWordsVector computV = new ComputeWordsVector();
		
		//int k[] = {10,20,30}; 三组分类
		int k[] = {20};
		
		Map> allTestSampleMap = computV.computeTFMultiIDF(testSampleDir);
		
		for(int i =0;i KmeansClusterResult = new TreeMap();
			KmeansClusterResult = doProcess(allTestSampleMap,k[i]);
			KmeansClusterResultFile += k[i];
			printClusterResult(KmeansClusterResult,KmeansClusterResultFile);
			System.out.println("The Entropy for this Cluster is " + evaluateClusterResult(KmeansClusterResultFile,k[i]));
		}
		
	}
	
	
	public static void main(String[] args) throws IOException {
		
		KmeansCluster test = new KmeansCluster();
		
		String KmeansClusterResultFile = "E:\\DataMiningSample\\KmeansClusterResult\\20";
		System.out.println("The Entropy for this Cluster is " + test.evaluateClusterResult(KmeansClusterResultFile,20));
	}


	
}

4、程序入口

package com.datamine.kmeans;

import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Date;

public class ClusterMain {

	/**
	 * Kmeans 聚类主程序入口
	 * @param args
	 * @throws IOException 
	 */
	public static void main(String[] args) throws IOException {
		
		//数据预处理 在分类算法中已经实现 这里（略）
		
		ComputeWordsVector computeV = new ComputeWordsVector();
		
		KmeansCluster kmeansCluster = new KmeansCluster();
		
		String srcDir = "E:\\DataMiningSample\\processedSample\\";
		String desDir = "E:\\DataMiningSample\\clusterTestSample\\";
		
		SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
		String beginTime = sdf.format(new Date());
		System.out.println("程序开始执行时间："+beginTime);
		
		String[] terms = computeV.createTestSamples(srcDir,desDir);
		kmeansCluster.KmeansClusterMain(desDir);
		
		String endTime = sdf.format(new Date());
		System.out.println("程序结束执行时间："+endTime);
		
	}
	
	
}

5、聚类结果

程序开始执行时间：2016-03-14 17:02:38
special words map sizes:3832
the total number of test files is 18828
开始聚类，聚成20类
本次聚类的初始点对应的文件为：
alt.atheism_49960
comp.graphics_38307
comp.os.ms-windows.misc_10112
comp.sys.ibm.pc.hardware_58990
comp.sys.mac.hardware_50449
comp.windows.x_66402
comp.windows.x_68299
misc.forsale_76828
rec.autos_103685
rec.motorcycles_105046
rec.sport.baseball_104941
rec.sport.hockey_54126
sci.crypt_15819
sci.electronics_54016
sci.med_59222
sci.space_61185
soc.religion.christian_20966
talk.politics.guns_54517
talk.politics.mideast_76331
talk.politics.misc_178699
Iteration No.0-------------------------
okCount = 512
Iteration No.1-------------------------
okCount = 10372
Iteration No.2-------------------------
okCount = 15295
Iteration No.3-------------------------
okCount = 17033
Iteration No.4-------------------------
okCount = 17643
Iteration No.5-------------------------
okCount = 18052
Iteration No.6-------------------------
okCount = 18282
Iteration No.7-------------------------
okCount = 18404
Iteration No.8-------------------------
okCount = 18500
Iteration No.9-------------------------
okCount = 18627
      0     1     2     3     4     5     6     7     8     9     10    11    12    13    14    15    16    17    18    19    
0     482   0     3     3     1     1     0     5     2     1     0     0     2     27    11    53    4     6     15    176   
1     4     601   69    8     14    127   7     5     5     8     0     14    31    16    34    2     2     2     1     5     
2     1     64    661   96    18    257   26    9     3     0     0     13    25    13    6     2     3     2     6     2     
3     0     56    78    575   213   15    119   15    6     2     1     4     131   2     4     2     6     0     2     1     
4     1     25    13    151   563   11    50    3     3     1     2     14    125   4     8     1     0     3     0     0     
5     2     28    78    25    37    348   13    2     0     0     2     5     38    5     6     2     1     1     2     8     
6     20    80    24    21    23    166   38    45    45    26    10    37    87    34    27    22    15    8     35    12    
7     4     20    6     24    45    6     629   28    20    14    0     3     87    10    4     1     8     0     13    0     
8     0     2     1     10    8     4     25    781   40    1     1     0     70    5     10    2     8     4     2     3     
9     4     2     11    0     1     1     11    34    831   1     0     1     7     7     0     1     1     1     8     0     
10    10    7     6     2     4     1     7     7     4     633   4     5     11    18    9     5     13    8     10    3     
11    1     0     1     9     4     1     20    1     3     286   961   0     17    8     4     2     2     0     5     3     
12    3     14    0     6     1     2     2     0     1     1     0     858   51    1     1     2     16    8     69    4     
13    3     15    4     7     7     17    5     12    8     5     2     5     46    13    793   6     5     2     30    5     
14    2     4     0     1     0     2     4     6     3     4     4     2     14    746   3     1     2     3     55    11    
15    30    43    29    39    15    18    12    13    7     3     4     13    195   38    36    5     6     18    5     11    
16    195   1     0     2     0     1     1     0     4     1     4     1     4     16    6     846   3     6     16    274   
17    8     2     0     2     4     2     1     5     7     0     0     10    30    12    5     28    363   9     289   23    
18    19    1     0     0     2     0     0     6     0     1     1     3     1     3     2     9     8     843   48    18    
19    10    8     1     1     1     0     2     13    2     6     3     3     9     12    18    5     444   16    164   69    

The Entropy for this Cluster is 1.2444339205006887
程序结束执行时间：2016-03-14 17:08:24

【数据仓库与数据挖掘基础】第一章概论/基础知识精神病不行计算机不上班数据仓库与数据挖掘基础数据挖掘数据仓库
知识点复习：事务（关于事务的一些知识点可以点这里）一、数据仓库的一些基本的知识1.从数据库到数据仓库1.1数据库用于事务处理1.1.1定义：事务处理是指对数据库中数据的操作，这些操作通常包括插入、更新、删除和查询等。事务处理的核心是确保数据的一致性和完整性。事务的定义：事务是数据库操作的基本单位，包含一组逻辑上相关的操作。事务要么全部成功，要么全部失败。ACID特性：原子性（Atomicity）：
【自学笔记】大数据基础知识点总览-持续更新 Long_poem 笔记大数据
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录大数据基础知识点总览1.大数据概述2.大数据处理技术3.数据仓库与数据挖掘4.大数据分析与可视化5.大数据平台与架构6.大数据安全与隐私总结大数据基础知识点总览1.大数据概述定义：大数据是指数据量巨大、类型多样、处理速度快的数据集合。特征：4V（Volume、Velocity、Variety、Veracity）描述了大数据的主
《数据仓库与数据挖掘》自测破坏神在行动数据仓库与数据挖掘数据仓库数据挖掘
试卷一一、选择题（每题2分，共20分）1.数据仓库的主要特征不包括以下哪一项？A.数据量大B.异构数据整合C.事务处理D.支持决策分析2.OLAP的核心功能是：A.事务处理B.多维数据分析C.数据清洗D.数据转换3.以下哪个不是元数据的分类？A.数据源元数据B.数据模型元数据C.数据仓库映射元数据D.数据备份元数据4.数据挖掘中的KDD指的是：A.数据清洗B.知识发现C.知识库设计D.知识库查询5
数据仓库与数据挖掘记录二匆匆整棹还数据仓库数据挖掘人工智能
1.数据仓库的产生从20世纪80年代初起直到90年代初,联机事务处理一直是关系数据库应用的主流。然而,应用需求在不断地变化,当联机事务处理系统应用到一定阶段时,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,进而做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。把这种基于业务数据的决策分析
数据仓库与数据挖掘记录三匆匆整棹还数据挖掘
数据仓库的数据存储和处理数据的ETL过程数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取、清洗、转换.加载与索引等数据调和工作,如图2.2所示。1）数据提取（Extract）从多个数据源中获取原始数据（如数据库、日志文件、API、云存储等）。数据源可能是结构化（如MySQL）、半结构化（如JSON）、非结构化（如文本）。关键技术：SQL查询、Web爬虫、日志采集工具（如Flume）
【数据仓库作业】第1章绪论 Francek Chen 数据仓库与数据挖掘数据仓库数据库数据挖掘
目录一、给出下列英文短语或缩写的中文名称，并简述其含义。二、简述操作型数据与分析型数据的主要区别。三、简述数据仓库的定义。四、简述数据仓库的特征。五、简述主题的定义。六、简述元数据的概念。七、简述数据挖掘的主要任务。八、简述数据挖掘的主要步骤。九、下列活动是否属于数据挖掘任务，并简述其理由。十、简述数据仓库与数据挖掘的区别。一、给出下列英文短语或缩写的中文名称，并简述其含义。1、DataBase（
数据库系统(重点，上午下午都会考) 努力发光的程序员软考数据库软件设计师
内容概述数据库模式三级模式-两级映射数据库设计过程ER模型关系代数与元组规范化理论函数依赖价值与用途·键题目答案：A，ABCD，B范式（重点）第一范式第二范式第三范式BC范式题目模式分解列表公式法并发控制基本概念并发中存在的问题封锁协议数据库完整性约束数据库安全数据备份数据仓库与数据挖掘反规范化大数据
《数据仓库与数据挖掘》期末复习总结炼魂复习笔记数据仓库数据挖掘笔记学习
《数据仓库与数据挖掘》期末复习总结适用教材：《数据挖掘概念与技术（第3版）》，JiaweiHan，MiehelineKamber，JianPei著，机械工业出版社提示：与教材内容不完全匹配，有所取舍写在前面：这份复习总结是笔者根据老师授课内容，结合教材、PPT整理出来的，本意是为了帮助笔者查缺补漏，理解记忆。现将其上传至CSDN博客，希望能对大家有所帮助。另外，内容上可能有遗漏、错误或者错字现象，
数据仓库与数据挖掘c5-c7基础知识目标是分享一切基础知识数据仓库数据挖掘人工智能
chapter5分类内容分类的基本概念分类数据对象元组(x,y)X属性集合Y类标签任务基于有标签的数据，学习一个分类模型，通过这个分类模型，可以把一组属性x映射到一个特定的类别y上类别y提前设定好的--如：学生，老师有监督学习Phase1用有标记的数据对分类器进行训练，得到训练好的分类器Phase2用训练好的分类器对没有标记的数据进行分类预测训练过程中，分类器在类标签的引导下进行学习，所以是有监督
数据仓库与数据挖掘c1-c4基础知识目标是分享一切基础知识数据仓库数据挖掘人工智能
chapter1moocTest11.判断以下行为是否属于数据挖掘任务：监测患者的心率是否异常来自是的，监测患者的心率是否异常可以被认为是数据挖掘任务的一种。数据挖掘是通过对大量数据进行分析，发现其中的模式、关联和趋势，并从中提取有用的信息和知识。在这种情况下，监测患者的心率是否异常涉及收集和记录患者的心率数据，然后对这些数据进行分析以识别异常模式或趋势。来自2.数据挖掘是从大量数据中挖掘重要、隐
数据仓库与数据挖掘小结目标是分享一切数据仓库数据挖掘人工智能
更加详细的只找得到pdf版本填空10分判断并改错10分计算8分综合20分客观题填空10分判断并改错10分--错的要改mooc中的--尤其考试题名词解释12分4个，每个3分经常碰到的专业术语简答题40分5个，每道8分综合画roc曲线类似于和计算相关的题目C1什么是数据挖掘？概念是什么？哪些操作属于数据挖掘操作，哪些操作不属于数据：海量、多源异构操作：从大量的数据中提取出有趣的（重要、隐含、以前未知、
我的数据仓库与数据挖掘期末大作业重置版 BOXonline1396529 数据仓库数据挖掘课程设计
文章目录我的数据仓库与数据挖掘期末大作业重置版准备工作预设定及导入相对应的库库的导入调整JupyterNotebook的预设定调整MatPlotLib和Pandas的输出设置任务1：预测问题数据的保存和读取数据的分析和预处理模型的选择和构建线性回归一元多项式回归拟合预测拟合优度的评估任务2：聚类分析问题数据的保存和读取数据的分析和预处理聚类的实现聚类结果有效性评估任务3：Apriori关联规则算法
sklearn中tfidf的计算与手工计算不同详解 stay_foolish12 sklearn tf-idf 人工智能
sklearn中tfidf的计算与手工计算不同详解引言：本周数据仓库与数据挖掘课程布置了word2vec的课程作业，要求是手动计算corpus中各个词的tfidf，并用sklearn验证自己计算的结果。但是博主手动计算的结果无论如何也与sklearn中的结果无法对应，在查阅大量资料无果的情况下，只好自己去阅读源码了，最后成功解决了这一问题。题目背景：作业:1.corpus=["我来到北京清华大学"
计算机三级数据库知识点汇总附思维导图 cx330上的猫数据库 mysql
目录第一章：数据库应用系统开发方法第二章：需求分析第三章：数据库结构设计第四章：数据库应用系统功能设计与实施第五章：UML与数据库应用系统第六章：高级数据查询第七章：数据库及数据库对象第八章：数据库后台编编址技术第九章：安全管理第十章：数据库运行维护与优化第十一章：故障管理第十二章：数据仓库与数据挖掘写在前面：考数据库三级的宝贝们不用去看b站的课，很长，而且那个老师讲的有点乱还有一些错误；以下内容
数据仓库与数据挖掘 huaqianzkh 数据库系统数据库
1.数据挖掘的概念数据挖掘（Datamining），又译为资料探勘、数据采矿。它是数据库知识发现（Knowledge-DiscoveryinDatabases，KDD）中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。数据挖掘是
【软考系统架构设计师】2023年系统架构师冲刺模拟习题之《数据库系统》小曾同学.com 软考系统架构师软考系统架构师数据库设计 ER图关系模式数据库事务
在数据库章节中可能会考察以下内容：文章目录数据库完整性约束数据库模式ER模式关系代数并发控制数据仓库与数据挖掘反规范化技术数据库完整性约束不能用作数据完整性约束实现技术的是（）A、实体完整性约束B、触发器C、参照完整性约束D、视图答案选择D数据完整性包括：实体完整性：即主键约束，主键不能为空，也不能重复。参照完整性：即外键约束，外键必须是其他表中已经存在的主键的值或者为空。用户自定义完整性：自定义
软件设计师_数据库系统_学习笔记至zzz 数据库学习笔记
文章目录3.1数据库模式3.1.1三级模式两级映射3.1.2数据库设计过程3.2ER模型3.3关系代数与元组演算3.4规范化理论3.5并发控制3.6数据库完整性约束3.7分布式数据库3.8数据仓库与数据挖掘3.1数据库模式3.1.1三级模式两级映射内模式直接与物理数据库相关联的定义了数据存放的格式及方式概念模式即模式，类似于数据库的表外模式对应的是数据库的视图3.1.2数据库设计过程3.2ER模型
数据挖掘（1）概述烟雨平生9527 数据仓库数据挖掘 spark
一、数据仓库和数据挖掘概述1.1数据仓库的产生数据仓库与数据挖掘：数据仓库和联机分析处理技术(存储)。数据挖掘：在大量的数据中心挖掘感兴趣的知识、规则、规律、模式、约束(分析)。数据仓库用于决策分析：数据仓库：是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，并不是‘大型数据库’。数据仓库与数据库的区别：数据库数据仓库事务处理决策分析保持事务处理的当前状态保存过去和当前
【软件设计师-从小白到大牛】上午题基础篇：第三章数据库系统 -dzk- 软件设计师-从小白到大牛数据库 oracle sql mysql database 大数据数据仓库
文章目录前言章节提要一、三级模式两级映射真题链接二、数据库的设计过程真题链接三、E-R模型真题链接四、关系代数SQL基础（补充）五、规范化理论1、函数依赖2、价值与用途3、键4、范式5、模式分解六、并发控制真题链接分布式数据库特点（补充）真题链接七、完整性约束八、数据库安全真题链接九、数据备份十、数据库故障与恢复真题链接十一、数据仓库与数据挖掘十二、反规范化十三、大数据前言本系列文章为观看b站视频
信息系统项目管理师自学笔记（十七）——数据仓库与数据挖掘烧麦Sn0wSt@r 信息系统项目管理师数据挖掘数据分析
为了满足中高层管理人员预测、决策分析的需要，在传统数据库的基础上产生了能够满足预测、决策分析需要的数据环境——数据仓库。3.7.1数据仓库的概念数据仓库（DataWarehouse）是一个面向主题的、集成的、相对稳定的，且随时间变化的数据集合，用于支持管理决策。面向主题的。操作型数据库的数据组织面向事务处理任务（面向应用），各个业务系统之间各自分离，而数据仓库中的数据是按照一定的主题域进行组织。集
计算机三级数据库复习12-数据仓库与数据挖掘 TOPic666 计算机三级数据库 mysql sql 数据库计算机三级
未来教育第十四章题目笔记_数据仓库与数据挖掘1、关联规则挖掘是发现交易数据库中不同商品之间的联系；无监督学习算法对类别并没有规定明确的前提条件。2、数据仓库是为了构建新的分析处理环境而出现的一种数据存储和组织的新技术。数据仓库有若干特征，包括不可更新性和随时间变化性。不可更新性：用户在提取仓库中的数据进行分析时，并不会同时对仓库中的数据进行更新操作数据变化性：数据每隔一段时间进行数据的更新和处理3
数据挖掘要学什么软件和程序语言冬_84fe
1.数据挖掘基本知识这一部分主要是看书，先了解一个情况。至于用什么书。口碑比较好的有《数据挖掘：概念与技术（第3版）》。我买了，看了一大半，感觉不太适合初学者。有些概念直接给出，对于底子不好的人有些突兀，要是硬着头皮使劲看，还是很有收获的，适合入门以后反复看。推荐一本很老的书《数据仓库与数据挖掘》。这本书相对来说不那么厚，很多基础概念也有论述，对初学者来说很友好。这一部分的学习是贯穿始终的，有经验
系统架构师笔记——数据库来自深渊的祝福学习笔记数据库系统架构
根据考试大纲，数据库方面要求考生掌握以下知识点：（1）信息系统综合知识：包括数据库管理系统的类型、数据库管理系统结构和性能评价、常用的关系型数据库管理系统、数据库模式、数据库规范化、分布式数据库系统、并行数据库系统、数据仓库与数据挖掘技术、数据库工程、备份恢复。（2）系统架构设计案例分析和论文：数据库建模、数据库设计、数据库系统的备份与恢复。1.数据库模式数据库系统可以分为外模式、概念模式和内模式
三、数据库系统原理不知何许人也软件设计师知识概括其他
数据库系统三、数据库系统原理3.1数据库模式3.2数据库设计3.3数据库的并发控制3.4数据库完整性约束和安全3.5数据库备份与恢复3.6数据仓库与数据挖掘3.7大数据三、数据库系统原理这部分内容较重要，上午的综合题和下午的案例分析题和论文都可能涉及到与数据库相关的知识。主要是数据库模式即分级模式，数据库的设计（涉及到ER模型、关系代数、元组演算、规范化理论，其中规范化理论和关系代数在上午题中每次
数据仓库与数据挖掘 1 林晚慕数据仓库与数据挖掘数据挖掘数据库 big data 数据仓库
基础知识篇什么是数据仓库数据仓库诞生原因？1.历史数据积存2.企业数据分析需要历史数据积存：历史数据使用频率低，堆积在业务库中，导致性能下降；企业数据分析需要：各个部门自己建立独立的数据抽取系统，导致数据不一致。简单的说，在普通的数据库（操作型数据库）中，每时每刻都在产生数据，而对于这样的数据往往历史数据不重要，以当前的操作数据为重点，以项目为主。传统数据库内存较小，经常需要删除数据，保留最新的数
数据仓库与数据挖掘——模型评估指标 LiuXin67X 算法数据挖掘人工智能
一、混淆矩阵1、基本概念混淆矩阵(confusionmatrix)，又称为可能性表格或是错误矩阵。在机器学习领域是一种特定的矩阵用来呈现算法性能的可视化效果，通常是监督学习（非监督学习，通常用匹配矩阵：matchingmatrix）。其每一列代表预测值，每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆（也就是一个class被预测成另一个class）。2、计算方法3、关
数据仓库与数据挖掘——PageRank LiuXin67X 算法数据仓库数据挖掘人工智能
一、基本介绍PageRank算法的基本想法是在有向图上定义一个随机游走模型，即一阶马尔可夫链，描述随机游走者沿着有向图随机访问各个结点的行为。在一定条件下，极限情况访问每个结点的概率收敛到平稳分布，各结点的平稳概率值就是其PageRank值，表示结点的重要度。PageRank是递归定义的，PageRank的计算可以通过迭代算法进行。二、实验内容PageRank算法的核心部分可以从一个有向图开始。最
机器学习——数据仓库与数据挖掘复习（选择题、判断题）小步调LLY 复习数据挖掘机器学习数据仓库
1.以下不是分类问题的是（B）。A.用户流失模型B.身高和体重关系C.信用评分D.营销响应2.对于回归分析，下列说法错误的是（D）A.在回归分析中，变量间的关系若是非确定关系，那么因变量不能由自变量唯一确定B.线性相关系数可以是正的，也可以是负的C.回归分析中，如果r^2=1，说明x与y之间完全相关D.样本相关系数r在区间（-1，1）3.数据分类是一个两阶段过程，包括（B）和分类阶段。A.分析阶段
数据仓库与数据挖掘——k-Means算法 LiuXin67X 算法数据挖掘 kmeans 人工智能
一、基本介绍聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。由这个定义可以知道，数据集并没有目标值。因此聚类算法属于无监督算法。k-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为k个簇，同时使簇内的点尽量紧密的连在一起，簇间的距离尽量的大。二、核心思想给定一个有n个对象的数据集，划分聚
数据仓库与数据挖掘——DBSCAN LiuXin67X 算法 python 算法
一、基本介绍DBSCAN算法是基于一组邻域参数(ε，MinPts)来描述样本分布的紧密程度，相比于基于划分的聚类方法和层次聚类方法，DBSCAN算法将簇定义为密度相连的样本的最大集合，能够将密度足够高的区域划分为簇，不需要给定簇的数量，并且可以在存在噪声的空间数据集中发现任意形状的簇。二、核心思想DBSCAN的簇里面可以有一个或者多个核心对象。如果只有一个核心对象，则簇里其他的非核心对象样本都在这
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少