决策树ID3算法C++实现

该文转自http://blog.csdn.net/yangliuy/article/details/7322015

数据挖掘课上面老师介绍了下决策树ID3算法，我抽空余时间把这个算法用C++实现了一遍。

决策树算法是非常常用的分类算法，是逼近离散目标函数的方法，学习得到的函数以决策树的形式表示。其基本思路是不断选取产生信息增益最大的属性（对于属性选择有多种方法）来划分样例集合，构造决策树。信息增益定义为结点与其子结点的信息熵之和的差。信息熵是香农提出的，用于描述信息不纯度(不稳定性)，其计算公式是

Pi为集合中不同性(而二元分类即正样例和负样例)的样例的比例。这样信息增益可以定义为样本按照某属性划分时造成熵减少的期望，可以区分训练样本中正负样本的能力，其计算公式是

我实现该算法针对的样例集合如下

该表记录了在不同气候条件下是否去打球的情况，要求根据该表用程序输出决策树

C++代码如下，程序中有详细注释

[cpp] view plain copy print ?

#include
#include
#include
#include
#include
#include
using namespace std;
#define MAXLEN 6//输入每行的数据个数
//多叉树的实现
//1 广义表
//2 父指针表示法，适于经常找父结点的应用
//3 子女链表示法，适于经常找子结点的应用
//4 左长子，右兄弟表示法,实现比较麻烦
//5 每个结点的所有孩子用vector保存
//教训:数据结构的设计很重要，本算法采用5比较合适，同时
//注意维护剩余样例和剩余属性信息，建树时横向遍历考循环属性的值，
//纵向遍历靠递归调用
vector > state;//实例集
vector item(MAXLEN);//对应一行实例集
vector attribute_row;//保存首行即属性行数据
string end("end");//输入结束
string yes("yes");
string no("no");
string blank("");
map > map_attribute_values;//存储属性对应的所有的值
int tree_size = 0;
struct Node{//决策树节点
string attribute;//属性值
string arrived_value;//到达的属性值
vector childs;//所有的孩子
Node(){
attribute = blank;
arrived_value = blank;
}
};
Node * root;
//根据数据实例计算属性与值组成的map
void ComputeMapFrom2DVector(){
unsigned int i,j,k;
bool exited = false;
vector values;
for(i = 1; i < MAXLEN-1; i++){//按照列遍历
for (j = 1; j < state.size(); j++){
for (k = 0; k < values.size(); k++){
if(!values[k].compare(state[j][i])) exited =true;
}
if(!exited){
values.push_back(state[j][i]);//注意Vector的插入都是从前面插入的，注意更新it，始终指向vector头
}
exited = false;
}
map_attribute_values[state[0][i]] = values;
values.erase(values.begin(), values.end());
}
}
//根据具体属性和值来计算熵
double ComputeEntropy(vector > remain_state, string attribute, string value,bool ifparent){
vector<int> count (2,0);
unsigned int i,j;
bool done_flag = false;//哨兵值
for(j = 1; j < MAXLEN; j++){
if(done_flag) break;
if(!attribute_row[j].compare(attribute)){
for(i = 1; i < remain_state.size(); i++){
if((!ifparent&&!remain_state[i][j].compare(value)) || ifparent){//ifparent记录是否算父节点
if(!remain_state[i][MAXLEN - 1].compare(yes)){
count[0]++;
}
else count[1]++;
}
}
done_flag = true;
}
}
if(count[0] == 0 || count[1] == 0 )return 0;//全部是正实例或者负实例
//具体计算熵根据[+count[0],-count[1]],log2为底通过换底公式换成自然数底数
double sum = count[0] + count[1];
double entropy = -count[0]/sum*log(count[0]/sum)/log(2.0) - count[1]/sum*log(count[1]/sum)/log(2.0);
return entropy;
}
//计算按照属性attribute划分当前剩余实例的信息增益
double ComputeGain(vector > remain_state, string attribute){
unsigned int j,k,m;
//首先求不做划分时的熵
double parent_entropy = ComputeEntropy(remain_state, attribute, blank,true);
double children_entropy = 0;
//然后求做划分后各个值的熵
vector values = map_attribute_values[attribute];
vector<double> ratio;
vector<int> count_values;
int tempint;
for(m = 0; m < values.size(); m++){
tempint = 0;
for(k = 1; k < MAXLEN - 1; k++){
if(!attribute_row[k].compare(attribute)){
for(j = 1; j < remain_state.size(); j++){
if(!remain_state[j][k].compare(values[m])){
tempint++;
}
}
}
}
count_values.push_back(tempint);
}
for(j = 0; j < values.size(); j++){
ratio.push_back((double)count_values[j] / (double)(remain_state.size()-1));
}
double temp_entropy;
for(j = 0; j < values.size(); j++){
temp_entropy = ComputeEntropy(remain_state, attribute, values[j], false);
children_entropy += ratio[j] * temp_entropy;
}
return (parent_entropy - children_entropy);
}
int FindAttriNumByName(string attri){
for(int i = 0; i < MAXLEN; i++){
if(!state[0][i].compare(attri)) return i;
}
cerr<<"can't find the numth of attribute"<
return 0;
}
//找出样例中占多数的正/负性
string MostCommonLabel(vector > remain_state){
int p = 0, n = 0;
for(unsigned i = 0; i < remain_state.size(); i++){
if(!remain_state[i][MAXLEN-1].compare(yes)) p++;
else n++;
}
if(p >= n) return yes;
else return no;
}
//判断样例是否正负性都为label
bool AllTheSameLabel(vector > remain_state, string label){
int count = 0;
for(unsigned int i = 0; i < remain_state.size(); i++){
if(!remain_state[i][MAXLEN-1].compare(label)) count++;
}
if(count == remain_state.size()-1)returntrue;
else returnfalse;
}
//计算信息增益，DFS构建决策树
//current_node为当前的节点
//remain_state为剩余待分类的样例
//remian_attribute为剩余还没有考虑的属性
//返回根结点指针
Node * BulidDecisionTreeDFS(Node * p, vector > remain_state, vector remain_attribute){
//if(remain_state.size() > 0){
//printv(remain_state);
//}
if (p == NULL)
p = new Node();
//先看搜索到树叶的情况
if (AllTheSameLabel(remain_state, yes)){
p->attribute = yes;
return p;
}
if (AllTheSameLabel(remain_state, no)){
p->attribute = no;
return p;
}
if(remain_attribute.size() == 0){//所有的属性均已经考虑完了,还没有分尽
string label = MostCommonLabel(remain_state);
p->attribute = label;
return p;
}
double max_gain = 0, temp_gain;
vector ::iterator max_it = remain_attribute.begin();
vector ::iterator it1;
for(it1 = remain_attribute.begin(); it1 < remain_attribute.end(); it1++){
temp_gain = ComputeGain(remain_state, (*it1));
if(temp_gain > max_gain) {
max_gain = temp_gain;
max_it = it1;
}
}
//下面根据max_it指向的属性来划分当前样例，更新样例集和属性集
vector new_attribute;
vector > new_state;
for(vector ::iterator it2 = remain_attribute.begin(); it2 < remain_attribute.end(); it2++){
if((*it2).compare(*max_it)) new_attribute.push_back(*it2);
}
//确定了最佳划分属性，注意保存
p->attribute = *max_it;
vector values = map_attribute_values[*max_it];
int attribue_num = FindAttriNumByName(*max_it);
new_state.push_back(attribute_row);
for(vector ::iterator it3 = values.begin(); it3 < values.end(); it3++){
for(unsigned int i = 1; i < remain_state.size(); i++){
if(!remain_state[i][attribue_num].compare(*it3)){
new_state.push_back(remain_state[i]);
}
}
Node * new_node = new Node();
new_node->arrived_value = *it3;
if(new_state.size() == 0){//表示当前没有这个分支的样例，当前的new_node为叶子节点
new_node->attribute = MostCommonLabel(remain_state);
}
else
BulidDecisionTreeDFS(new_node, new_state, new_attribute);
//递归函数返回时即回溯时需要1 将新结点加入父节点孩子容器 2清除new_state容器
p->childs.push_back(new_node);
new_state.erase(new_state.begin()+1,new_state.end());//注意先清空new_state中的前一个取值的样例，准备遍历下一个取值样例
}
return p;
}
void Input(){
string s;
while(cin>>s,s.compare(end) != 0){//-1为输入结束
item[0] = s;
for(int i = 1;i < MAXLEN; i++){
cin>>item[i];
}
state.push_back(item);//注意首行信息也输入进去，即属性
}
for(int j = 0; j < MAXLEN; j++){
attribute_row.push_back(state[0][j]);
}
}
void PrintTree(Node *p, int depth){
for (int i = 0; i < depth; i++) cout <<'\t';//按照树的深度先输出tab
if(!p->arrived_value.empty()){
cout<arrived_value<
for (int i = 0; i < depth+1; i++) cout <<'\t';//按照树的深度先输出tab
}
cout<attribute<
for (vector::iterator it = p->childs.begin(); it != p->childs.end(); it++){
PrintTree(*it, depth + 1);
}
}
void FreeTree(Node *p){
if (p == NULL)
return;
for (vector::iterator it = p->childs.begin(); it != p->childs.end(); it++){
FreeTree(*it);
}
delete p;
tree_size++;
}
int main(){
Input();
vector remain_attribute;
string outlook("Outlook");
string Temperature("Temperature");
string Humidity("Humidity");
string Wind("Wind");
remain_attribute.push_back(outlook);
remain_attribute.push_back(Temperature);
remain_attribute.push_back(Humidity);
remain_attribute.push_back(Wind);
vector > remain_state;
for(unsigned int i = 0; i < state.size(); i++){
remain_state.push_back(state[i]);
}
ComputeMapFrom2DVector();
root = BulidDecisionTreeDFS(root,remain_state,remain_attribute);
cout<<"the decision tree is :"<
PrintTree(root,0);
FreeTree(root);
cout<
cout<<"tree_size:"<
return 0;
}

#include 
#include 
#include 
#include 
#include 
#include 
using namespace std;
#define MAXLEN 6//输入每行的数据个数

//多叉树的实现 
//1 广义表
//2 父指针表示法，适于经常找父结点的应用
//3 子女链表示法，适于经常找子结点的应用
//4 左长子，右兄弟表示法,实现比较麻烦
//5 每个结点的所有孩子用vector保存
//教训:数据结构的设计很重要，本算法采用5比较合适，同时
//注意维护剩余样例和剩余属性信息，建树时横向遍历考循环属性的值，
//纵向遍历靠递归调用

vector  > state;//实例集
vector  item(MAXLEN);//对应一行实例集
vector  attribute_row;//保存首行即属性行数据
string end("end");//输入结束
string yes("yes");
string no("no");
string blank("");
map > map_attribute_values;//存储属性对应的所有的值
int tree_size = 0;
struct Node{//决策树节点
	string attribute;//属性值
	string arrived_value;//到达的属性值
	vector childs;//所有的孩子
	Node(){
		attribute = blank;
		arrived_value = blank;
	}
};
Node * root;

//根据数据实例计算属性与值组成的map
void ComputeMapFrom2DVector(){
	unsigned int i,j,k;
	bool exited = false;
	vector values;
	for(i = 1; i < MAXLEN-1; i++){//按照列遍历
		for (j = 1; j < state.size(); j++){
			for (k = 0; k < values.size(); k++){
				if(!values[k].compare(state[j][i])) exited = true;
			}
			if(!exited){
				values.push_back(state[j][i]);//注意Vector的插入都是从前面插入的，注意更新it，始终指向vector头
			}
			exited = false;
		}
		map_attribute_values[state[0][i]] = values;
		values.erase(values.begin(), values.end());
	}	
}

//根据具体属性和值来计算熵
double ComputeEntropy(vector  > remain_state, string attribute, string value,bool ifparent){
	vector count (2,0);
	unsigned int i,j;
	bool done_flag = false;//哨兵值
	for(j = 1; j < MAXLEN; j++){
		if(done_flag) break;
		if(!attribute_row[j].compare(attribute)){
			for(i = 1; i < remain_state.size(); i++){
				if((!ifparent&&!remain_state[i][j].compare(value)) || ifparent){//ifparent记录是否算父节点
					if(!remain_state[i][MAXLEN - 1].compare(yes)){
						count[0]++;
					}
					else count[1]++;
				}
			}
			done_flag = true;
		}
	}
	if(count[0] == 0 || count[1] == 0 ) return 0;//全部是正实例或者负实例
	//具体计算熵 根据[+count[0],-count[1]],log2为底通过换底公式换成自然数底数
	double sum = count[0] + count[1];
	double entropy = -count[0]/sum*log(count[0]/sum)/log(2.0) - count[1]/sum*log(count[1]/sum)/log(2.0);
	return entropy;
}
	
//计算按照属性attribute划分当前剩余实例的信息增益
double ComputeGain(vector  > remain_state, string attribute){
	unsigned int j,k,m;
	//首先求不做划分时的熵
	double parent_entropy = ComputeEntropy(remain_state, attribute, blank, true);
	double children_entropy = 0;
	//然后求做划分后各个值的熵
	vector values = map_attribute_values[attribute];
	vector ratio;
	vector count_values;
	int tempint;
	for(m = 0; m < values.size(); m++){
		tempint = 0;
		for(k = 1; k < MAXLEN - 1; k++){
			if(!attribute_row[k].compare(attribute)){
				for(j = 1; j < remain_state.size(); j++){
					if(!remain_state[j][k].compare(values[m])){
						tempint++;
					}
				}
			}
		}
		count_values.push_back(tempint);
	}
	
	for(j = 0; j < values.size(); j++){
		ratio.push_back((double)count_values[j] / (double)(remain_state.size()-1));
	}
	double temp_entropy;
	for(j = 0; j < values.size(); j++){
		temp_entropy = ComputeEntropy(remain_state, attribute, values[j], false);
		children_entropy += ratio[j] * temp_entropy;
	}
	return (parent_entropy - children_entropy);	
}

int FindAttriNumByName(string attri){
	for(int i = 0; i < MAXLEN; i++){
		if(!state[0][i].compare(attri)) return i;
	}
	cerr<<"can't find the numth of attribute"< > remain_state){
	int p = 0, n = 0;
	for(unsigned i = 0; i < remain_state.size(); i++){
		if(!remain_state[i][MAXLEN-1].compare(yes)) p++;
		else n++;
	}
	if(p >= n) return yes;
	else return no;
}

//判断样例是否正负性都为label
bool AllTheSameLabel(vector  > remain_state, string label){
	int count = 0;
	for(unsigned int i = 0; i < remain_state.size(); i++){
		if(!remain_state[i][MAXLEN-1].compare(label)) count++;
	}
	if(count == remain_state.size()-1) return true;
	else return false;
}

//计算信息增益，DFS构建决策树
//current_node为当前的节点
//remain_state为剩余待分类的样例
//remian_attribute为剩余还没有考虑的属性
//返回根结点指针
Node * BulidDecisionTreeDFS(Node * p, vector  > remain_state, vector  remain_attribute){
	//if(remain_state.size() > 0){
		//printv(remain_state);
	//}
	if (p == NULL)
		p = new Node();
	//先看搜索到树叶的情况
	if (AllTheSameLabel(remain_state, yes)){
		p->attribute = yes;
		return p;
	}
	if (AllTheSameLabel(remain_state, no)){
		p->attribute = no;
		return p;
	}
	if(remain_attribute.size() == 0){//所有的属性均已经考虑完了,还没有分尽
		string label = MostCommonLabel(remain_state);
		p->attribute = label;
		return p;
	}

	double max_gain = 0, temp_gain;
	vector ::iterator max_it = remain_attribute.begin();
	vector ::iterator it1;
	for(it1 = remain_attribute.begin(); it1 < remain_attribute.end(); it1++){
		temp_gain = ComputeGain(remain_state, (*it1));
		if(temp_gain > max_gain) {
			max_gain = temp_gain;
			max_it = it1;
		}
	}
	//下面根据max_it指向的属性来划分当前样例，更新样例集和属性集
	vector  new_attribute;
	vector  > new_state;
	for(vector ::iterator it2 = remain_attribute.begin(); it2 < remain_attribute.end(); it2++){
		if((*it2).compare(*max_it)) new_attribute.push_back(*it2);
	}
	//确定了最佳划分属性，注意保存
	p->attribute = *max_it;
	vector  values = map_attribute_values[*max_it];
	int attribue_num = FindAttriNumByName(*max_it);
	new_state.push_back(attribute_row);
	for(vector ::iterator it3 = values.begin(); it3 < values.end(); it3++){
		for(unsigned int i = 1; i < remain_state.size(); i++){
			if(!remain_state[i][attribue_num].compare(*it3)){
				new_state.push_back(remain_state[i]);
			}
		}
		Node * new_node = new Node();
		new_node->arrived_value = *it3;
		if(new_state.size() == 0){//表示当前没有这个分支的样例，当前的new_node为叶子节点
			new_node->attribute = MostCommonLabel(remain_state);
		}
		else 
			BulidDecisionTreeDFS(new_node, new_state, new_attribute);
		//递归函数返回时即回溯时需要1 将新结点加入父节点孩子容器 2清除new_state容器
		p->childs.push_back(new_node);
		new_state.erase(new_state.begin()+1,new_state.end());//注意先清空new_state中的前一个取值的样例，准备遍历下一个取值样例
	}
	return p;
}

void Input(){
	string s;
	while(cin>>s,s.compare(end) != 0){//-1为输入结束
		item[0] = s;
		for(int i = 1;i < MAXLEN; i++){
			cin>>item[i];
		}
		state.push_back(item);//注意首行信息也输入进去，即属性
	}
	for(int j = 0; j < MAXLEN; j++){
		attribute_row.push_back(state[0][j]);
	}
}

void PrintTree(Node *p, int depth){
	for (int i = 0; i < depth; i++) cout << '\t';//按照树的深度先输出tab
	if(!p->arrived_value.empty()){
		cout<arrived_value<attribute<::iterator it = p->childs.begin(); it != p->childs.end(); it++){
		PrintTree(*it, depth + 1);
	}
}

void FreeTree(Node *p){
	if (p == NULL)
		return;
	for (vector::iterator it = p->childs.begin(); it != p->childs.end(); it++){
		FreeTree(*it);
	}
	delete p;
	tree_size++;
}

int main(){
	Input();
	vector  remain_attribute;
	
	string outlook("Outlook");
	string Temperature("Temperature");
	string Humidity("Humidity");
	string Wind("Wind");
	remain_attribute.push_back(outlook);
	remain_attribute.push_back(Temperature);
	remain_attribute.push_back(Humidity);
	remain_attribute.push_back(Wind);
	vector  > remain_state;
	for(unsigned int i = 0; i < state.size(); i++){
		remain_state.push_back(state[i]); 
	}
	ComputeMapFrom2DVector();
	root = BulidDecisionTreeDFS(root,remain_state,remain_attribute);
	cout<<"the decision tree is :"<

输入的训练数据如下





[plain] view plain copy print ?



Day Outlook Temperature Humidity Wind PlayTennis  
1 Sunny Hot High Weak no 
2 Sunny Hot High Strong no 
3 Overcast Hot High Weak yes 
4 Rainy Mild High Weak yes 
5 Rainy Cool Normal Weak yes 
6 Rainy Cool Normal Strong no 
7 Overcast Cool Normal Strong yes 
8 Sunny Mild High Weak no 
9 Sunny Cool Normal Weak yes 
10 Rainy Mild Normal Weak yes 
11 Sunny Mild Normal Strong yes 
12 Overcast Mild High Strong yes 
13 Overcast Hot Normal Weak yes 
14 Rainy Mild High Strong no 
end 


Day Outlook Temperature Humidity Wind PlayTennis
1 Sunny Hot High Weak no
2 Sunny Hot High Strong no
3 Overcast Hot High Weak yes
4 Rainy Mild High Weak yes
5 Rainy Cool Normal Weak yes
6 Rainy Cool Normal Strong no
7 Overcast Cool Normal Strong yes
8 Sunny Mild High Weak no
9 Sunny Cool Normal Weak yes
10 Rainy Mild Normal Weak yes
11 Sunny Mild Normal Strong yes
12 Overcast Mild High Strong yes
13 Overcast Hot Normal Weak yes
14 Rainy Mild High Strong no
end

 程序输出决策树如下


可以用图形表示为




有了决策树后，就可以根据气候条件做预测了
例如如果气候数据是{Sunny,Cool,Normal,Strong} ,根据决策树到左侧的yes叶节点，可以判定会去游泳。
另外在编写这个程序时在数据结构的设计上面走了弯路，多叉树的实现有很多方法，本算法采用每个结点的所有孩子用vector保存比较合适，同时注意维护剩余样例和剩余属性信息，建树时横向遍历靠循环属性的值，纵向遍历靠递归调用 ，总体是DFS，树和图的遍历在编程时经常遇到，得熟练掌握。程序有些地方的效率还得优化，有不足的点地方还望大家拍砖。

Python环境下基于深度判别迁移学习网络的轴承故障诊断哥廷根数学学派故障诊断信号处理深度学习 python 迁移学习开发语言
目前很多机器学习和数据挖掘算法都是基于训练数据和测试数据位于同一特征空间、拥有相同数据分布的假设。然而在现实应用中，该假设却未必存在。一方面，如果将利用某一领域数据训练得到的模型直接应用于新的目标领域，领域之间切实存在的数据差异可能会导致模型效果的骤然下降。另一方面，如果直接在新的目标领域中进行模型的训练，其数据的稀缺和标注的不完整可能会导致监督学习出现严重的过拟合问题，难以达到令人满意的学习效果
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
一文梳理金融风控建模全流程(Python) 风控小兵突击智能风控 python 数据分析算法机器学习数据挖掘概率论
▍目录一、简介风控信用评分卡简介Scorecardpy库简介二、目标定义与数据准备目标定义数据准备三、安装scorecardpy包四、数据检查五、数据筛选六、数据划分七、变量分箱卡方分箱手动调整分箱八、建立模型相关性分析多重共线性检验VIFKS和AUC评分映射PSI稳定性指标九、关键指标说明WOE值IV值逻辑回归KS值PSI▍风控信用评分卡简介通过运用数据挖掘算法，信贷风控系统可以像个"预言家"一
在线项目实习分享：股票价格形态聚类与收益分析泰迪智能科技大数据在线实习项目聚类数据挖掘机器学习
01前置课程数据挖掘基础数据探索数据预处理数据挖掘算法基础Python数据挖掘编程基础Matplotlib可视化Pyecharts绘图02师傅带练行业联动与轮动分析通过分析申银万国行业交易指数的联动与轮动现象，获得有意义的行业轮动关联规则，并在此基础上设计量化投资策略。项目技术目标如下：1、利用不同投资品种强势时间的错位对行业品种进行切换以达到投资收益最大化的目的。2、量化投资策略，为投资者提供高
十大数据挖掘算法之KNN算法清梦载星河
一、KNN算法概述KNN（k-NearestNeighbor）算法，又称K近邻算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。简单来说，k近邻算法采用测量不同特征值之间的距离方法进行分类。优点：精度高、对异常值不敏感、无数据输入假定；缺点：计算复杂度高、空间复杂度高；适用数据范围：数值型和标称型。工作原理存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们
数据挖掘--决策树人工智能MOS 深度学习人工智能机器学习数据挖掘
1.算法原理决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。近来的调查表明决策树也是最经常使用的数据挖掘算法，它的概念非常简单。决策树算法之所以如此流行，一个很重要的原因就是使用者基本上不用了解机器学习算法，也不用深究它是如何工作的。直观看上去，决策树分类器就像判断模块
大数据技术原理与应用期末考试题无敌海苔咪大数据开源框架期末大数据
大数据技术原理与应用期末考试题一、单选题1.下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能?A、利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理B、利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析C、构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全D、把实时采集的数据作为流计算系统的输
如何选择合适的工具来进行数据可视化？王永翔信息可视化数据分析数据挖掘
需求列表：1、是否需要数据抽取？2、是否有数据标准化的要求？3、是否需要建立数据资产？4、是否需要提供数据服务？5、是否需要对于数据进行数据建模（二次加工处理）？6、是否需要对于数据于模型进行权限管理？7、是否需要支持外部数据的导入？8、是否需要支持数据挖掘算法？8、是否需要支持图片分类？9、是否需要支持任务中心？10、是否支持参数、表格、图表、标签、图标、图片等可视化内容？可以根据自己的实际需要
python基于数据挖掘算法的“B站” 用户行为数据分析 QQ2743785109 python 数据挖掘 python 算法
收藏关注不迷路文章目录前言一、模块设计3.1数据爬取模块3.2数据的挖掘与分析模块3.3数据可视化模块二、开发环境三、数据预处理4.2各功能模块的实现4.2.1热点视频的数据分析及可视化四、结论目录前言经过多年的发展，网络视频已经成为互联网上的主要应用之一。目前，网络视频具有数量大、发布快、影响多、影响力大的特点。BililiBarrageVideoNetwork(简称B站)作为当下国内首屈一
数据挖掘算法及相关应用黄成甲
我们生活在信息爆炸的时代，每时每刻都在产生海量的数椐。我们在微博、微信、社交网站、门户网站、移动终端等众多的设备商产生的海量数据，面临着无法处理数据的困境。例如电商行业，每天客户的注册、建议、投诉、订单以及喜好等行为都会被记录下来，几乎每一个大公司都拥有自己庞大的客户数据信息。如何从海量的数据中提取有用的知识或者模式来改善企业的管理或提高团队运行效率，已成为如今亟待解决的问题，数据挖掘技术正是解决
协同过滤算法之vue+springboot个性化电影评分推荐系统6n498 qq_3166678367 vue.js spring boot 前端
摘要为了解决信息过载问题,个性化推荐系统由此产生。个性化推荐系统通过对用户行为的分析,利用数据挖掘算法对信息进行过滤,将用户可能感兴趣的产品或项目推荐给用户。对于电影爱好者来说,利用网络在浩如烟海的电影数据库中找到自己喜欢的电影并非易事。电影作为一个艺术的载体,有其自身携带的客观数据,同时不可避免还带有大量观赏者的评论等主观数据。人们也常常会参考别人的意见来做判断。因此,个性化影片推荐系统将以B/
数据挖掘与建模有效的前提是具备问题领域的专业知识数据科学作家数据挖掘人工智能 python 开发语言机器学习深度学习数据分析
1.数据挖掘与建模有效的前提是具备问题领域的专业知识数据挖掘与建模有效的前提是具备问题领域的专业知识。数据挖掘与建模的本质是用一系列数据挖掘算法来创建模型，同时解释模型和业务目标的特点。2.我们在建模时有时候考虑的是因果关系我们在建模时有时候考虑的是因果关系，比如研究客户行为特征对他产生购买行为的影响，我们把响应变量设定为客户的购买行为，把特征变量设定为客户的性别、年龄、学历、年收入水平、可支配收
2020-05-13 常用的数据分析与挖掘工具程凉皮儿
常用的数据分析与挖掘工具R语言是由奥克兰大学统计系的Robert和Ross共同开发的，并在1993年首次亮相。其具备灵活的数据操作、高效的向量化运算、优秀的数据可视化等优点，受到用户的广泛欢迎。它是一款优秀的数据挖掘工具，用户可以借助强大的第三方扩展包，实现各种数据挖掘算法的落地。Pyhton是由荷兰人GuidovanRossum于1989年发明的，并在1991年首次公开发行。它是一款简单易学的编
用最简单的语言来解释一下数据挖掘的十大算法 zdy0_2004 机器学习机器学习
http://dataunion.org/20745.html出处：伯乐在线在一份调查问卷中，三个独立专家小组投票选出的十大最有影响力的数据挖掘算法，今天我打算用简单的语言来解释一下。一旦你知道了这些算法是什么、怎么工作、能做什么、在哪里能找到，我希望你能把这篇博文当做一个跳板，学习更多的数据挖掘知识。还等什么？这就开始吧！1.C4.5算法C4.5是做什么的？C4.5以决策树的形式构建了一个分类器
apriori算法 c语言,数据挖掘算法——Apriori算法蒋大钳 apriori算法 c语言
Apriori算法首先，Apriori算法是关联规则挖掘中很基础也很经典的一个算法。转载来自：链接：https://www.jianshu.com/p/26d61b83492e所以做如下补充：关联规则：形如X→Y的蕴涵式，其中，X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS)。其中，关联
推荐一个数据科学与大数据技术专业毕业论文题目不卡不卡大数据信息可视化数据分析数据挖掘人工智能
很高兴为您提供帮助!在数据科学和大数据技术专业，毕业论文题目可以围绕以下几个方面展开:大数据挖掘和分析:例如，使用机器学习或数据挖掘算法来从海量数据中发现有用信息。大数据存储和处理:例如，研究如何使用分布式系统来存储和处理海量数据。大数据可视化:例如，研究如何使用可视化技术将大数据可视化，以帮助人们理解和分析数据。大数据安全:例如，研究如何保护大数据免受攻击和泄漏。大数据应用:例如，研究大数据在某
经典数据挖掘算法（介绍了包括18大数据挖掘在内的多种经典数据挖掘算法） IU菜籽U 18大数据挖掘典数据算法
前言文章标题的两个概念也许对于许多同学们来说都相对比较陌生，都比较偏向于于理论方面的知识，但是这个算法非常的强大，在很多方面都会存在他的影子。2个概念，1个维特比算法，1个隐马尔可夫模型。你很难想象，输入法的设计也会用到其中的一些知识。HMM-隐马尔可夫模型隐马尔可夫模型如果真的要展开来讲，那短短的一篇文章当然无法阐述的清，所以我会以最简单的方式解释。隐马尔可夫模型简称HMM，根据百度百科中的描述
数据挖掘算法之决策树详解金科应用研院风控策略数据科学互联网金融决策树算法数据挖掘
在计算机科学领域，尤其是在数据结构，很多种复杂的数据结构都是跟树有关，都是一个XX树命名。比如典型的霍夫曼树、KD树等。霍夫曼树是用来做编码的，KD树是用来对空间做划分。本文目录：风控决策树模型决策树模型的种类决策树模型的构造关注【金科应用研院】，回复“CSDN”，领取量化风控大礼包在开始跟大家介绍决策树模型之前，结合自然界中的树，我们先来了解下树的特点。自然界里的一棵树一定是有一个根，沿着这个根
数据挖掘算法跟数据结构中的算法有区别吗 banana很香蕉
学习数据挖掘算法也有一段时间了，某天小伙伴问我，你学的这个跟我们之前学校学的数据结构算法有什么区别吗。我很快回答：当然有区别啊。其实过后细想，究竟有啥区别。就是因为这个问题，才有了今天这篇文章。那么在我们开始前，可以先暂停阅读一分钟，回忆下已了解数据结构的算法还有数据挖掘算法，思考下这两种算法有区别吗。下面我们称数据结构算法为经典算法。首先我们来看看算法是什么看看维基百科的定义算法（algorit
数据挖掘算法原理与实践：数据预处理 01==零壹机器学习 1024程序员节机器学习数据预处理
目录第1关：标准化相关知识为什么要进行标准化Z-score标准化Min-max标准化MaxAbs标准化代码文件第2关：非线性转换相关知识为什么要非线性转换映射到均匀分布映射到高斯分布Yeo-Johnson映射Box-Cox映射代码文件第3关：归一化相关知识为什么使用归一化L1范式归一化L2范式归一化代码文件第4关：离散值编码相关知识LabelEncoderOneHotEncoder代码文件第5关：
41丨数据挖掘实战（3）：如何对比特币走势进行预测？张九日zx
数据挖掘算法有一种叫时间序列分析的算法，时间序列分析模型建立了观察结果与时间变化的关系，能帮我们预测未来一段时间内的结果变化情况。时间序列分析和回归分析的区别：-结果与变量的关系。回归分析训练得到的是目标变量y与自变量x（一个或多个）的相关性，然后通过新的自变量x来预测目标变量y。而时间序列分析得到的是目标变量y与时间的相关性。-回归分析擅长的是多变量与目标结果之间的分析，即便是单一变量，也往往与
[ Spark ] Spark核心概念 bone_ds Spark spark big data hadoop
Spark概述1.SparkorHadoop?Hadoop的MapReduce和Spark同为计算框架,使用时如何选择?1)MR由于其设计初衷并不是为了满足循环迭代式数据流处理，因此在多并行运行的数据可复用场景（如：机器学习、图挖掘算法、交互式数据挖掘算法）中存在诸多计算效率等问题。Spark就是在传统的MapReduce计算框架的基础上，利用其计算过程的优化，从而大大加快了数据分析、挖掘的运行和
数据挖掘算法-关联算法-Apriori 止水。。数据挖掘机器学习深度学习
一、Apriori算法简介：关联规则挖掘是数据挖掘领域的热点，关联规则反映一个对象与其他对象之间的相互依赖关系，如果多个对象之间存在-定的关联关系，那么一个对象可以通过其他对象进行预测。关联规则挖掘一般可分成两个步骤:①找出所有支持度大于等于最小支持度阈值的频繁项集。②由频繁模式生成满足可信度阈值的关联规则。二、基本概念：1、事物和项：数据挖掘用到的基本数据集记为D，它是由事务构成的，--般多存储
Deepwalk(深度游走)算法简介 Mr.Cheng1996 deepwalk 知识图谱
深度游走：一种社交表示的在线学习算法主要思想Deepwalk算法参考文献主要思想 Deepwalk是一种将随机游走(randomwalk)和word2vec两种算法相结合的图结构数据挖掘算法。该算法能够学习网络的隐藏信息，能够将图中的节点表示为一个包含潜在信息的向量，如图1-2所示。图1输入:图信号图2输出:图节点嵌入Deepwalk算法该算法主要分为随机游走和生成表示向量两个部分。首先利用
DeepWalk（深度游走）算法嵌入式开发. 机器学习/深度学习算法机器学习 python
整理自：Deepwalk(深度游走)算法简介_Mr.Cheng1996的博客-CSDN博客【论文笔记】DeepWalk-知乎DeepWalk是一种将随机游走(randomwalk)和word2vec两种算法相结合的图结构数据挖掘算法。该算法能够学习网络的隐藏信息，能够将图中的节点表示为一个包含潜在信息的向量，如图1-2所示。Deepwalk算法该算法主要分为随机游走和生成表示向量两个部分。首先利用
决策树ID3、C4.5 小小少年Boy
决策树ID3、C4.5如需转载，请注明作者及出处.作者：Treant出处：http://www.cnblogs.com/en-heng/【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïveBayesCART1.决策树模型与学习决策树（decisiontree）算法基于特征属性进行分类，其主要的优点：模型具有可读性，计算量小，分类
CBA算法---基于关联规则进行分类的算法 Android路上的人机器学习数据挖掘算法经典数据挖掘算法机器学习数据挖掘算法数据
更多数据挖掘算法：https://github.com/linyiqun/DataMiningAlgorithm介绍CBA算法全称是ClassificationbaseofAssociation，就是基于关联规则进行分类的算法，说到关联规则，我们就会想到Apriori和FP-Tree算法都是关联规则挖掘算法，而CBA算法正是利用了Apriori挖掘出的关联规则，然后做分类判断，所以在某种程度上说，
4.3.3 连续属性离散化 WeDataScience
一些数据挖掘算法，要求数据是分类属性形式的。所以常常需要将连续属性变换成分类属性，即连续属性离散化。常用的离散化方法等宽法将属性的值域分成具有相同宽度的区间，区间的个数由数据本身的特点决定，或者由用户指定，类似于制作频率分布表。等频法将相同数量的记录放进每个区间，每个区间数据值个数相同基于聚类分析的方法一维聚类的方法包括两个步骤，首先将连续属性的值用聚类(如K-Means算法)进行聚类，然后再将聚
十大数据挖掘算法之-KNN(K近邻)算法鸡汤本汤数据挖掘算法人工智能 KNN
KNN算法（K-NearestNeighbors）是一种基本的机器学习算法，常用于分类和回归任务。1.KNN算法简介KNN算法是一种监督学习算法，用于解决分类和回归问题。它的核心思想非常简单：一个样本的类别或值由其最近邻居的类别或值决定。这里的K代表了选择多少个最近邻居来做决策。2.算法原理KNN算法的工作原理可以概括为以下几个步骤：选择K值：首先，选择一个合适的K值，它代表了你希望用多少个最近邻
什么是元数据真空零点能大数据大数据
元数据元数据是描述数据的数据，关于数据的组织、数据域及其关系，本质上是关于数据的信息。元数据以数字化方式描述企业的数据、流程和应用程序，为企业数字资产的内容提供了上下文，使得数据更容易理解、查找、管理和使用。元数据分类业务元数据、技术元数据、操作元数据业务元数据描述数据的业务含义、业务规则等业务定义、业务术语解释等业务指标名称、计算口径、衍生指标等业务引擎的规则、数据质量检测规则、数据挖掘算法等数
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

决策树ID3算法C++实现

你可能感兴趣的:(数据挖掘算法)