忆之独秀

【机器学习实战之一】：C++实现K-近邻算法KNN

本文不对KNN算法做过多的理论上的解释，主要是针对问题，进行算法的设计和代码的注解。

KNN算法：

优点：精度高、对异常值不敏感、无数据输入假定。

缺点：计算复杂度高、空间复杂度高。

适用数据范围：数值型和标称性。

工作原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据及中前ｋ个最相似的数据，这就是k-近邻算法中k的出处，通常k选择不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

K-近邻算法的一般流程：

（1）收集数据：可以使用任何方法

（2）准备数据：距离计算所需要的数值，最好是结构化的数据格式

（3）分析数据：可以使用任何方法

（4）训练算法：此步骤不适用k-邻近算法

（5）测试算法：计算错误率

（6）使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

问题一：现在我们假设一个场景，就是要为坐标上的点进行分类，如下图所示：

上图一共12个左边点，每个坐标点都有相应的坐标(x,y)以及它所属的类别A/B，那么现在需要做的就是给定一个点坐标(x1,y1)，判断它属于的类别A或者B。

所有的坐标点在data.txt文件中：

0.0 1.1 A
1.0 1.0 A
2.0 1.0 B
0.5 0.5 A
2.5 0.5 B
0.0 0.0 A
1.0 0.0 A 
2.0 0.0 B
3.0 0.0 B
0.0 -1.0 A
1.0 -1.0 A
2.0 -1.0 B

step1：通过类的默认构造函数去初始化训练数据集dataSet和测试数据testData。

step2：用get_distance()来计算测试数据testData和每一个训练数据dataSet[index]的距离，用map_index_dis来保存键值对,其中index代表第几个训练数据，distance代表第index个训练数据和测试数据的距离。

step3：将map_index_dis按照value值（即distance值）从小到大的顺序排序，然后取前k个最小的value值，用map_label_freq来记录每一个类标签出现的频率。

step4：遍历map_label_freq中的value值，返回value最大的那个key值，就是测试数据属于的类。

看一下代码KNN_0.cc：

#include
#include
#include
#include
#include
#include
#include
#include

using namespace std;

typedef char tLabel;
typedef double tData;
typedef pair  PAIR;
const int colLen = 2;
const int rowLen = 12;
ifstream fin;
ofstream fout;

class KNN
{
private:
		tData dataSet[rowLen][colLen];
		tLabel labels[rowLen];
		tData testData[colLen];
		int k;
		map map_index_dis;
		map map_label_freq;
		double get_distance(tData *d1,tData *d2);
public:

		KNN(int k);

		void get_all_distance();
		
		void get_max_freq_label();

		struct CmpByValue
		{
			bool operator() (const PAIR& lhs,const PAIR& rhs)
			{
				return lhs.second < rhs.second;
			}
		};
		
};

KNN::KNN(int k)
{
	this->k = k;

	fin.open("data.txt");

	if(!fin)
	{
		cout<<"can not open the file data.txt"<>dataSet[i][j];
		}
		fin>>labels[i];
	}

	cout<<"please input the test data :"<>testData[i];
	
}

/*
 * calculate the distance between test data and dataSet[i]
 */
double KNN:: get_distance(tData *d1,tData *d2)
{
	double sum = 0;
	for(int i=0;i::const_iterator map_it = map_label_freq.begin();
	tLabel label;
	int max_freq = 0;
	//find the most frequent label
	while( map_it != map_label_freq.end() )
	{
		if( map_it->second > max_freq )
		{
			max_freq = map_it->second;
			label = map_it->first;
		}
		map_it++;
	}
	cout<<"The test data belongs to the "<>k;
	KNN knn(k);
	knn.get_all_distance();
	knn.get_max_freq_label();
    system("pause"); 
	return 0;
}

我们来测试一下这个分类器(k=5)：

testData(5.0,5.0):

testData(-5.0,-5.0):

testData(1.6,0.5):

分类结果的正确性可以通过坐标系来判断，可以看出结果都是正确的。

问题二：使用k-近邻算法改进约会网站的匹配效果

情景如下：我的朋友海伦一直使用在线约会网站寻找合适自己的约会对象。尽管约会网站会推荐不同的人选，但她没有从中找到喜欢的人。经过一番总结，她发现曾交往过三种类型的人：

>不喜欢的人

>魅力一般的人

>极具魅力的人

尽管发现了上述规律，但海伦依然无法将约会网站推荐的匹配对象归入恰当的分类。她觉得可以在周一到周五约会哪些魅力一般的人，而周末则更喜欢与那些极具魅力的人为伴。海伦希望我们的分类软件可以更好的帮助她将匹配对象划分到确切的分类中。此外海伦还收集了一些约会网站未曾记录的数据信息，她认为这些数据更有助于匹配对象的归类。

海伦已经收集数据一段时间。她把这些数据存放在文本文件datingTestSet.txt（文件链接：http://yunpan.cn/QUL6SxtiJFPfN，提取码：f246）中，每个样本占据一行，总共有1000行。海伦的样本主要包含3中特征：

>每年获得的飞行常客里程数

>玩视频游戏所耗时间的百分比

>每周消费的冰淇淋公升数

数据预处理：归一化数据

我们可以看到，每年获取的飞行常客里程数对于计算结果的影响将远大于其他两个特征。而产生这种现象的唯一原因，仅仅是因为飞行常客书远大于其他特征值。但是这三种特征是同等重要的，因此作为三个等权重的特征之一，飞行常客数不应该如此严重地影响到计算结果。

处理这种不同取值范围的特征值时，我们通常采用的方法是数值归一化，如将取值范围处理为0到1或者-1到1之间。

公式为：newValue = (oldValue - min) / (max - min)

其中min和max分别是数据集中的最小特征值和最大特征值。我们增加一个auto_norm_data函数来归一化数据。

同事还要设计一个get_error_rate来计算分类的错误率，选总体数据的10%作为测试数据，90%作为训练数据，当然也可以自己设定百分比。

其他的算法设计都与问题一类似。

代码如下KNN_2.cc（k=7）：

/* add the get_error_rate function */

#include
#include
#include
#include
#include
#include
#include
#include

using namespace std;

typedef string tLabel;
typedef double tData;
typedef pair  PAIR;
const int MaxColLen = 10;
const int MaxRowLen = 10000;
ifstream fin;
ofstream fout;

class KNN
{
private:
		tData dataSet[MaxRowLen][MaxColLen];
		tLabel labels[MaxRowLen];
		tData testData[MaxColLen];
		int rowLen;
		int colLen;
		int k;
		int test_data_num;
		map map_index_dis;
		map map_label_freq;
		double get_distance(tData *d1,tData *d2);
public:
		KNN(int k , int rowLen , int colLen , char *filename);
		void get_all_distance();
		tLabel get_max_freq_label();
		void auto_norm_data();
		void get_error_rate();
		struct CmpByValue
		{
			bool operator() (const PAIR& lhs,const PAIR& rhs)
			{
				return lhs.second < rhs.second;
			}
		};

		~KNN();	
};

KNN::~KNN()
{
	fin.close();
	fout.close();
	map_index_dis.clear();
	map_label_freq.clear();
}

KNN::KNN(int k , int row ,int col , char *filename)
{
	this->rowLen = row;
	this->colLen = col;
	this->k = k;
	test_data_num = 0;
	
	fin.open(filename);
	fout.open("result.txt");

	if( !fin || !fout )
	{
		cout<<"can not open the file"<>dataSet[i][j];
			fout<>labels[i];
		fout<>test_data_num;
	for(i=0;i::const_iterator map_it = map_label_freq.begin();
	tLabel label;
	int max_freq = 0;
	while( map_it != map_label_freq.end() )
	{
		if( map_it->second > max_freq )
		{
			max_freq = map_it->second;
			label = map_it->first;
		}
		map_it++;
	}
	cout<<"The test data belongs to the "<maxa[j] )
			{
				maxa[j] = dataSet[i][j];
			}
			else if( dataSet[i][j]

 
  
 
  makefile: 
   
   
  target:
	g++ KNN_2.cc
        ./a.out 7 1000 3 datingTestSet.txt 
   
  
 
  结果： 
  
 
   
  
 
  可以看到：在测试数据为10%和训练数据90%的比例下，可以看到错误率为4%，相对来讲还是很准确的。 
  
 
  构建完整可用系统： 
  已经通过使用数据对分类器进行了测试，现在可以使用分类器为海伦来对人进行分类。 
  代码KNN_1.cc（k=7）： 
   
  /* add the auto_norm_data */

#include
#include
#include
#include
#include
#include
#include
#include

using namespace std;

typedef string tLabel;
typedef double tData;
typedef pair  PAIR;
const int MaxColLen = 10;
const int MaxRowLen = 10000;
ifstream fin;
ofstream fout;

class KNN
{
private:
		tData dataSet[MaxRowLen][MaxColLen];
		tLabel labels[MaxRowLen];
		tData testData[MaxColLen];
		int rowLen;
		int colLen;
		int k;
		map map_index_dis;
		map map_label_freq;
		double get_distance(tData *d1,tData *d2);
public:
		KNN(int k , int rowLen , int colLen , char *filename);
		void get_all_distance();
		tLabel get_max_freq_label();
		void auto_norm_data();
		struct CmpByValue
		{
			bool operator() (const PAIR& lhs,const PAIR& rhs)
			{
				return lhs.second < rhs.second;
			}
		};

		~KNN();	
};

KNN::~KNN()
{
	fin.close();
	fout.close();
	map_index_dis.clear();
	map_label_freq.clear();
}

KNN::KNN(int k , int row ,int col , char *filename)
{
	this->rowLen = row;
	this->colLen = col;
	this->k = k;
	
	fin.open(filename);
	fout.open("result.txt");

	if( !fin || !fout )
	{
		cout<<"can not open the file"<>dataSet[i][j];
			fout<>labels[i];
		fout<>testData[0];
	cout<<"percentage of time spent playing video games?";
	cin>>testData[1];
	cout<<"liters of ice cream consumed per year?";
	cin>>testData[2];
}

double KNN:: get_distance(tData *d1,tData *d2)
{
	double sum = 0;
	for(int i=0;i::const_iterator it = map_index_dis.begin();
//	while(it!=map_index_dis.end())
//	{
//		cout<<"index = "<first<<" distance = "<second< vec_index_dis( map_index_dis.begin(),map_index_dis.end() );
	sort(vec_index_dis.begin(),vec_index_dis.end(),CmpByValue());

	for(int i=0;i::const_iterator map_it = map_label_freq.begin();
	tLabel label;
	int max_freq = 0;
	/*traverse the map_label_freq to get the most frequent label*/
	while( map_it != map_label_freq.end() )
	{
		if( map_it->second > max_freq )
		{
			max_freq = map_it->second;
			label = map_it->first;
		}
		map_it++;
	}
	return label;
}

/*
 * normalize the training data set
 */
void KNN::auto_norm_data()
{
	tData maxa[colLen] ;
	tData mina[colLen] ;
	tData range[colLen] ;
	int i,j;

	for(i=0;imaxa[j] )
			{
				maxa[j] = dataSet[i][j];
			}
			else if( dataSet[i][j]
 
   
  
 
  makefile： 
   
  target:
	g++ KNN_1.cc
        ./a.out 7 1000 3 datingTestSet.txt 
  
 
  结果： 
   
  
 
  
 
  KNN_1.cc和KNN_2.cc的差别就在于后者对分类器的性能（即分类错误率）进行分析，而前者直接对具体实际的数据进行了分类。 
  
 
  注明出处：http://blog.csdn.net/lavorange/article/details/16924705

Python建模复习：数据挖掘技术理论啾啾二一
第二部分数据挖掘技术理论2.1数据分析方法论KDD知识发现KnowledgeDiscoveryfromDatabase：数据清理、数据集成、数据选择、数据变换（正规化、泛化、离散化）、数据挖掘、模式评估、知识表示。CRISP-DM（cross-industryprocessfordatamining）：业务理解、数据理解、数据准备、建模、模型评估和模型发布。SEMMA：抽样Sample、探索Exp
开发实践12_DataMiningSys. even_123 数据库 sql
朔宁夫基于Pycharm的网页开发课程笔记。Tips1实际的分析系统构建可能涉及不同开发工具，无法基于模型关系关联，需要明确item的id。role_id=models.IntegerField(primary_key=True,verbose_name="Authority")id=models.BigAutoField(primary_key=True,verbose_name="UserID
文本挖掘HW3 在做算法的巨巨
importosimportos.pathimportcodecsimportpandasaspdimportnumpyasnpfilePaths=[]fileContents=[]a=os.walk("C:/Users/dell/Desktop/datamining/2.1+语料库/2.1/SogouC.mini/Sample")forroot,dirs,filesina:fornameinfi
数据挖掘笔记1 幽径微澜数据挖掘笔记 python 数据挖掘大数据算法
课程：清华大学-数据挖掘：理论与算法（国家级精品课）_哔哩哔哩_bilibili一、LearningResources二、Data数据是最底层的一种表现形式。数据具有连续性。从存储上来讲，数据分为逻辑上的和物理层的。大数据：数据量大、产生速度快、数据种类多、三、TheProcessofDataMining四、clustering聚类聚类：把一堆数据分为一组一组的（没有标签）层次性聚类：一个一个单独
一些 AI 机构小田_ LLM python 大模型 AI 机构
文章目录OpenAITHUDMMetaAITIIStabilityAINousResearchOpenAIhf:https://huggingface.co/openai官网：https://openai.comTHUDM清华大学KEG和THUDM团队KnowledgeEngineeringGroup(KEG)&DataMiningatTsinghuaUniversityhf:https://hu
数据仓库（2）-认识数仓 XianMing的博客数据仓库数据仓库 spark 大数据
1、数据仓库是什么数据仓库，由数据仓库之父比尔·恩门（BillInmon）于1990年提出，主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料，透过数据仓库理论所特有的资料储存架构，做有系统的分析整理，以利各种分析方法如联机分析处理(OLAP)、数据挖掘(DataMining)之进行，并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建，帮助决策者能快速有
知识点整理[（GraphGeo）RELATED WORK] 别致的SmallSix 网路空间测绘 php 开发语言
2RELATEDWORK2.1IPGeolocation问题一：IP定位预测方法之一：Datamining-basedmethods回答：依赖于在公开的资源中挖掘位置线索来对目标IP（targetIP）进行地理定位。其中一些数据分析了来自与IP相关的数据库，如WHOIS数据库和DNS的数据。（1）例如，Moore等人[26]提出了NetGeo，其中包括一组Perl脚本(Perlscripts)，用
WSDM 2023 2024时空&时序论文总结 STLearner 时空数据大数据智慧城市 pytorch 数据挖掘论文阅读深度学习机器学习
WSDM（WebSearchandDataMining）是CCFB类会议，清华A类会议（一年就100来篇怎么能不算顶会！）WSDM2024将在2024年3月4日-3月8日在墨西哥梅里达（Mérida,México）举行。目前官网已经放出了所有被录用论文的表单（链接在相关链接给出）。本次会议共收录112篇论文。WSDM2023在2023年2月27日到3月3日在新加坡举行，公布的录用结果为，共收到投稿
How to understand Data Mining qwfys200 Reading 数据挖掘数据库人工智能
HowtounderstandDataMining什么是数据挖掘为何使用数据挖掘数据挖掘有哪些类型流程挖掘文本挖掘预测挖掘数据挖掘如何运作业务了解数据了解数据准备数据筛选数据变量转换缺失值处理坏数据处理数据标准化主成分分析属性选择数据规约数据建模评估模型部署模型数据挖掘的方法有哪些异常检测（Anomalydetection）聚类分析（ClusteringAnalysis）分类分析（Classifi
1.5 The Leaming Problem-Machine Leaming and other Fields|机器学习基石（林轩田）-学习笔记努力奋斗的durian
文章原创,最近更新：2018-06-27学习链接:1.5TheLeamingProblem-MachineLeamingandotherFields1.MachineLearningandDataMining(机器学习与数据挖掘)讲完了机器学习完整的流程,下面将一下机器学习与其他相关领域的关系第一个讲的领域就是数据挖掘,数据挖掘与机器学习有什么不一样,如下:机器学习是用资料找出一个假说g,然后跟我
学习笔记：数据挖掘与机器学习 howard2005 数据挖掘基础学习笔记数据挖掘
文章目录一、数据挖掘、机器学习、深度学习的区别（一）数据挖掘（二）机器学习（三）深度学习（四）总结二、数据挖掘体系三、数据挖掘的流程四、典型的数据挖掘系统一、数据挖掘、机器学习、深度学习的区别（一）数据挖掘数据挖掘，或者说DataMining，是一个涵盖广泛且充满活力的学术领域，其核心目标在于揭示隐藏在海量数据背后的有价值信息和知识。这一过程涵盖了多种方法和技术，包括但不限于商业智能（BI）、统计
数据挖掘概述+探索+预处理(期末) ros275229 class 数据挖掘人工智能
1.数据挖掘概述数据挖掘定义:数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息或知识的非平凡过程。含义:数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。步骤:数据清洗数据集成数据选择数据变换
【数据挖掘】工具整理 - 期刊 - 会议 - 论坛/博客 - 数据集子衿JDD 数据分析与挖掘工具数据挖掘人工智能
文章目录1期刊2会议3论坛/博客4数据集1期刊DataMiningandKnowledgeDiscovery(DMKD)IEEETransactionsonKnowledgeandDataEngineering(TKDE)KnowledgeandInformationSystems(KAIS)IEEETransactionsonPatternAnalysisandMachineIntelligen
Data Mining数据挖掘(一)——Clustering聚类大白要努力啊数据挖掘人工智能
1.IntroductionWearedrowningindata,butstarvingforknowledge.(JohnNaisbitt,1982)Dataminingdrawsideasfrommachinelearning,statistics,anddatabasesystems.MethodsDescriptivemethods=unsupervisedPredictivemetho
统计学，机器学习，数据挖掘和深度学习的区别沈阿吉大数据作业机器学习数据挖掘深度学习
1.统计学：与机器学习的任务相似，主要是模型参数推断以及数据拟合或预测。统计学更关心推断或预测的置信度。在研究问题的方法上，统计学会关心统计量服从什么分布，假设检验是否显著，模型拟合是否合理等问题。2.数据挖掘：也就是datamining，是一个很宽泛的概念。字面意思就是从成吨的数据里面挖掘有用的信息。这个工作BI（商业智能）可以做，数据分析可以做，甚至市场运营也可以做。你用excel分析分析数据
一则controlfile丢失，或损坏的恢… lixora DBRecovery
alert.log中的报错信息Startingup:OracleDatabase11gEnterpriseEditionRelease11.2.0.1.0-ProductionWiththePartitioning,OLAP,DataMiningandRealApplicationTestingoptions.Usingparametersettingsinserver-sidespfile/u0
jupyter notebook 添加环境与删除环境不牌不改一些环境的配置 jupyter python ide
添加环境一、查看conda现有的环境打开AnacondaPowershellPrompt输入以下代码，查看全部环境：condaenvlist可以看到如下已经配置的环境变量：二、激活现有环境在AnacondaPowershellPrompt继续输入，激活环境：condaactivateDataMining三、安装ipykernel包在AnacondaPowershellPrompt继续输入，安装ip
分类算法-----决策树(包括ID3，C4.5) Yt_Sports 机器学习算法机器学习算法决策树
第一篇：决策树学习（MachineLearning&DataMining）引言最近在面试中，除了基础&算法&项目之外，经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然，这完全不代表你将来的面试中会遇到此类问题，只是因为我的简历上写了句：熟悉常见的聚类&分类算法而已)，而我向来恨对一个东西只知其皮毛而不得深入，故写一个有关数据挖掘十大算法的系列文章以作为自己备试之用，甚至以备将来常
QBUS6810 Statistical Learning and Data Mining weixin_30834019 python 人工智能
QBUS6810StatisticalLearningandDataMiningSemester1,2019GroupProject:AirbnbPricingPredictions1.KeyinformationRequiredsubmissions:1)Writtenreport(submittedasonepdffilepergroupviaAssignmentsubmissiononCan
QBUS6810 BUSINESS SCHOOL weixin_30565199 python 人工智能
BUSINESSSCHOOLPage1of4QBUS6810StatisticalLearningandDataMiningSemester1,2019GroupProject:AirbnbPricingPredictions1.KeyinformationRequiredsubmissions:1)Writtenreport(submittedasonepdffilepergroupviaAss
基于数据挖掘的智能停车场运营数据分析系统（毕业论文）桃宝护卫队数据挖掘人工智能
点击完整下载基于数据挖掘的智能停车场运营数据分析系统"ADataMining-BasedIntelligentParkingLotOperationalDataAnalysisSystem"目录目录2摘要3关键词4第一章绪论41.1研究背景41.2研究意义51.3主要研究内容71.4研究方法与流程81.5论文结构安排10第二章数据挖掘技术综述122.1数据挖掘概述122.2数据预处理132.3特征
mysql 事实表维度表_【datamining】OLTP，OLAP，维度数据库，事实表，维度表、星形和雪花模式、数据立方体、概念分层... weixin_39808877 mysql 事实表维度表
一、联机事务处理(OLTP)OLTP系统是设计用来允许高并发性的，这样很多用户就能够访问同一个数据源并进行所需的处理。OLTP系统是面向在数据库上进行事务处理的理念的。而事务则进一步蕴含着发生在表中数据上的受控的变更，这些变更包括在商务运作过程中发生的插入、更新和删除操作。通常，一个OLTP系统将会有大量的客户端应用程序通过各种各样的方式(插入、更新、删除--实际上可以是任何操作)访问数据库以查询
单基因从泛癌到特定癌种分析，揭示肿瘤潜在药物靶点生信学霸
Multi-OmicsAnalysisoftheTherapeuticValueofMAL2BasedonDataMininginHumanCancers基于人类癌症数据挖掘的MAL2治疗价值的多组学分析发表期刊：FrontCellDevBiol发表日期：2022Jan17doi:10.3389/fcell.2021.736649期刊相关信息一、背景研究报道，T细胞分化蛋白2(MAL2)是癌症中的
python与数据挖掘上机实验5_python数据挖掘test5 weixin_39791386 python与数据挖掘上机实验5
内容：根据信用卡持卡人背景信息(年龄、教育水平、当前工作年限、当前居住年限、家庭收入、债务占收入比例、信用卡负债、其他负债)预测还款拖欠情况。用分类算法来建模预测数据导入；importpandasaspddata=pd.read_csv('C:\\Users\\dell\\Desktop\\datamining\\train__UnB.csv')train_data=data.iloc[:,0:-
【实战】Oracle11g用户密码不区分大小写码农丁丁 #大数据 oracle11g application database testing oracle system
连接到:OracleDatabase11gEnterpriseEditionRelease11.2.0.1.0-ProductionWiththePartitioning,OLAP,DataMiningandRealApplicationTestingoptionsSQL>showparametersec_case_sensitive_logonNAMETYPEVALUE-------------
机器学习领域经典书籍推荐隐私无忧人工智能 #机器学习 #深度学习机器学习人工智能数据挖掘深度学习
机器学习领域经典书籍1.数据挖掘概念与技术2.机器学习3.统计学习方法4.深度学习5.动手学深度学习（PyTorch版）1.数据挖掘概念与技术原名:DataMining：ConceptsandTechniques，ThirdEdition作者:（美）JiaweiHan/（加）MichelineKamber/（加）JianPei韩家炜老爷子在数据挖掘领域的经典教材，里程碑意义的经典著作，全面阐述该领
scikit-learn 米切尔
scikit-learn官网截图sklearn库的基本介绍MachineLearninginPythonSimpleandefficienttoolsfordatamininganddataanalysisAccessibletoeverybody,andreusableinvariouscontextsBuiltonNumpy,Scipy,andmatplotlibOpensource,comm
python 数据挖掘库orange3 介绍杨澄 python 数据挖掘开发语言
orange3是一个非常适合初学者的datamininglibrary.它让使用者通过拖拽内置的组件来形成工作流。让你不需要写任何代码就可以体验到数据挖掘和可视化的魅力。它的桌面如下，这里我创建了3个节点，分别是数据集、小提琴图，散点图其中Datasets是从左边的Data组件库中拖拽过来的，Datasets是orange3内置的数据集，比如非常常用的iris（鸢尾花）数据集。双击桌面上的Data
数据仓库与数据挖掘 huaqianzkh 数据库系统数据库
1.数据挖掘的概念数据挖掘（Datamining），又译为资料探勘、数据采矿。它是数据库知识发现（Knowledge-DiscoveryinDatabases，KDD）中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。数据挖掘是
Day3|Python数据分析与挖掘实战|分类与预测:决策树且不了了
分类与预测——决策树内容提要决策树的基本思想三类信息混杂度的指标建立决策树分裂属性及其条件的选择何时结束分裂树的选择产生分类规则并应用示例http://nbviewer.jupyter.org/github/qiebuliaoliao/Datamining_python/blob/master/20180419_%E5%88%86%E7%B1%BB%E4%B8%8E%E9%A2%84%E6%B5%
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

【机器学习实战之一】：C++实现K-近邻算法KNN

你可能感兴趣的:(DataMining)