u014568921

CART分类与回归树的原理与实现

算法概述

CART(Classification And Regression Tree)算法是一种决策树分类方法。

它采用一种二分递归分割的技术，分割方法采用基于最小距离的基尼指数估计函数，将当前的样本集分为两个子样本集，使得生成的的每个非叶子节点都有两个分支。因此，CART算法生成的决策树是结构简洁的二叉树。

分类树

如果目标变量是离散变量，则是classfication Tree。

分类树是使用树结构算法将数据分成离散类的方法。

回归树

如果目标是连续变量，则是Regression Tree。

CART树是二叉树，不像多叉树那样形成过多的数据碎片。

分类树两个关键点

（1）将训练样本进行递归地划分自变量空间进行建树

（2）用验证数据进行剪枝。

a.对于离散变量X（x1…xn）

分别取X变量各值的不同组合，将其分到树的左枝或右枝，并对不同组合而产生的树，进行评判，找出最佳组合。如果只有两个取值，好办，直接根据这两个值就可以划分树。取值多于两个的情况就复杂一些了，如变量年纪，其值有“少年”、“中年”、“老年”，则分别生产{少年，中年}和{老年}，{上年、老年}和{中年}，{中年，老年}和{少年}，这三种组合，最后评判对目标区分最佳的组合。因为CART二分的特性，当训练数据具有两个以上的类别，CART需考虑将目标类别合并成两个超类别，这个过程称为双化。这里可以说一个公式,n个属性，可以分出(2^n-2)/2种情况。

b.对于连续变量X（x1…xn）

首先将值排序，分别取其两相邻值的平均值点作为分隔点，将树一分成左枝和右枝，不断扫描，进而判断最佳分割点。特征值大于分裂值就走左子树，或者就走右子树。

这里有一个问题，这次选中的分裂属性在下次还可以被选择吗？对于离散变量XD，如果XD只有两种取值，那么在这一次分裂中，根据XD分裂后，左子树中的subDataset中每个数据的XD属性一样，右子树中的subDataset中每个数据的XD属性也一样，所以在这个节点以后，XD都不起作用了，就不用考虑XD了。XD取3种，4种。。。的情况大家自己想想，不难想明白。至于连续变量XC，离散化后相当于一个可以取n个值的离散变量，按刚刚离散变量的情况分析。除非XC的取值都一样，否则这次用了XC作为分裂属性，下次还要考虑XC。

变量和最佳切分点选择原则

树的生长，总的原则是，让枝比树更纯，而度量原则是根据不纯对指标来衡量，对于分类树，则用GINI指标、Twoing指标、Order Twoing等；如果是回归树则用，最小平方残差、最小绝对残差等指标衡量

（1）GINI指标（Gini越小，数据越纯）——针对离散目标

（2）最小平方残差——针对连续目标

其思想是，让组内方差最小，对应组间方差最大，这样两组，也即树分裂的左枝和右枝差异化最大。

通过以上不纯度指标，分别计算每个变量的各种切分/组合情况，找出该变量的最佳值组合/切分点；再比较各个变量的最佳值组合/切分点，最终找出最佳变量和该变量的最佳值组合/切分点

整个树的生长是一个递归过程，直到终止条件

终止条件

（1）节点是纯结点，即所有的记录的目标变量值相同

（2）树的深度达到了预先指定的最大值

（3）混杂度的最大下降值小于一个预先指定的值

（4）节点的记录量小于预先指定的最小节点记录量

（5）一个节点中的所有记录其预测变量值相同

直观的情况，当节点包含的数据记录都属于同一个类别时就可以终止分裂了。这只是一个特例，更一般的情况我们计算χ2值来判断分类条件和类别的相关程度，当χ2很小时说明分类条件和类别是独立的，即按照该分类条件进行分类是没有道理的，此时节点停止分裂。注意这里的“分类条件”是指按照GINI_Gain最小原则得到的“分类条件”。

终止条件（3）混杂度的最大下降值小于一个预先指定的值，该枝的分化即停止。所有枝节的分化都停止后，树形模型即成。其实你也可以不使用这个终止条件，让树生长到最大，因为CART有剪枝算法。

建树过程

这里面误分类成本和先验概率是需要提前设定好的参数。这里为node标定label如果考虑一些unbalanced data，比如训练样本里有100个正样本，只有1个负样本，这样的数据就是unbalanced，就不能简单的majority归类了。上面的这个mark label的方法对不均衡数据就有一定的鲁棒性。

要注意对于每一个树结点，不管是否叶子结点，该node都要标上label，因为后面剪枝时非叶节点可能变为叶节点。

树生长完之后就是剪枝，剪枝非常重要。剪枝目的是避免决策树过拟合(Overfitting)样本。在一般的数据集中，过拟合的决策树的错误率比经过简化的决策树的错误率要高。

剪枝算法CCP(Cost-Complexity Pruning)

这一部分参考http://blog.csdn.net/u010159842/article/details/46458973

Cost-Complexity Pruning(CCP、代价复杂度)
CCP方法包含两个步骤：
1：从原始决策树T0开始生成一个子树序列{T0、T1、T2、...、Tn},其中Ti+1是从Ti总产生，Tn为根节点
2：从子树序列中，根据树的真实误差估计选择最佳决策树。

对于分类回归树中的每一个非叶子节点计算它的表面误差率增益值α。

是子树中包含的叶子节点个数;

是节点t的误差代价，如果该节点被剪枝;

r(t)是节点t的误差率;

p(t)是节点t上的数据占所有数据的比例。

是子树T_t的误差代价，如果该节点不被剪枝。它等于子树T_t上所有叶子节点的误差代价之和。

比如有个非叶子节点t4如图所示：

已知所有的数据总共有60条，则节点t4的节点误差代价为：

子树误差代价为：

以t4为根节点的子树上叶子节点有3个，最终：

找到α值最小的非叶子节点，令其左右孩子为NULL。当多个非叶子节点的α值同时达到最小时，取最大的进行剪枝。

剪枝过程特别重要，所以在最优决策树生成过程中占有重要地位。有研究表明，剪枝过程的重要性要比树生成过程更为重要，对于不同的划分标准生成的最大树(Maximum Tree)，在剪枝之后都能够保留最重要的属性划分，差别不大。反而是剪枝方法对于最优树的生成更为关键。

好了，再来看一个例子

很明白了吧

用一幅图解释一下

29-30之间的水平线以下的几个点代表的树都满足：

但箭头所指的树的叶节点最少，所以选择这棵树作为best tree。

缺失值的处理

对于某些采样数据，可能会缺少属性值。在这种情况下，处理缺少属性值的通常做法是赋予该属性的常见值，或者属性均值。另外一种比较好的方法是为该属性的每个可能值赋予一个概率，即将该属性以概率形式赋值。例如给定Boolean属性B，已知采样数据有12个B=0和88个B=1实例，那么在赋值过程中，B属性的缺失值被赋值为B(0)=0.12、B(1)=0.88；所以属性B的缺失值以12%概率被分到False的分支，以88%概率被分到True的分支。这种处理的目的是计算信息增益，使得这种属性值缺失的样本也能处理。

最终结果

（1）分类树：最终叶子中概率最大的类
（2）回归树：最终叶子的均值或者中位数

优点

1）非常灵活，可以允许有部分错分成本，还可指定先验概率分布，可使用自动的成本复杂性剪枝来得到归纳性更强的树。
2）在面对诸如存在缺失值、变量数多等问题时CART显得非常稳健。

其实一直想看Cart：Classification and Regression Trees-Leo Breiman原版的书，可惜找不到，大家有谁找到能不能分享一下。

下面是我的实现，回归部分其实还没写，以后写了会更新一下。

数据集用的是UCI adult数据集，大家可以搜搜

// cart.cpp : 定义控制台应用程序的入口点。
//

#include "stdafx.h"
#include<vector>
#include<set>
#include<algorithm>
#include<iostream>
#include<iterator>
#include<fstream>
#include<string>
#include<map>
/*******************************************/
/************author Marshall****************/
/**********date 2015.10.3*******************/
/**************version 1.0******************/
/************copyright reserved*************/
/*******************************************/
using namespace std;



class cart
{
private:
	vector<int>nums_of_value_each_discreteAttri;
	int num_of_continuousAttri;
	int ContinuousAttriNums;
	int labelNums;//how many kinds of label
	unsigned int CL_max_height;
	//double miniumginigain;//not need,we have prune method

	//define the record
	class Record
	{
	public:
		vector<int>discrete_attri;//for each discrete attribute,it's value can be 0,1...increased by 1
		vector<double>continuous_attti;
		int label;//0,1,2...
	};

	//define the node
	struct CartNode
	{
		vector<int>remianDiscreteAttriID;
		int selectedAttriID;
		vector<int>selectedDiscreteAttriValues;
		bool isSelectedAttriIDDiscrete;
		double continuousAttriPartitionValue;//
		int label;//if the record drop in this node,its' label should be
		int height;//current node's height
		vector<int>labelcount;//a counter for the records' label that current node holds
		double alpha;//for nonleaf,for prune
		int record_number;//该节点上涵盖的记录个数
		CartNode*lnode, *rnode;
		CartNode()
		{
			label = -1;
			selectedAttriID = -1;
			isSelectedAttriIDDiscrete = true;
			lnode = rnode = NULL;
			record_number = 0;
		}
	};
	CartNode*root;


	//double threshold;

private:
	//calculate gini index,for classify
	double calGiniIndex(vector<int>&subdatasetbyID, const vector<Record>*dataset, CartNode*node = NULL);
	double calSquaredresiduals();//calculate squaredresiduals,for regression
	void CL_split_dataset();
	void RE_split_dataset();
	void CL_trim(const vector<Record>*validationdataset);
	void RE_trim();
	//void make_discrete();
	//pair.first is majority label in subdataset,pair.second is it's number
	int allthesame(vector<int>&subdatasetbyID, const vector<Record>*dataset);
	/*如果某特征取值有3个，那么二分序列组合就有3种，4个取值就有7种组合,5个取值就有15种组合*/
	vector<pair<vector<int>, vector<int>>>make_two_heap(const int kk);
	pair<vector<int>, vector<int>>split_dataset(const int&selectedDiscreteAttriID,
		vector<int>&selected, const vector<int>&subdatasetbyID, const vector<Record>*dataset);
	pair<vector<int>, vector<int>>split_dataset(const int&selectedContiuousAttriID,
		const double partition, const vector<int>&subdatasetbyID, const vector<Record>*dataset);
	CartNode* copytree(CartNode*src, CartNode*dst);//deepcopy of a tree,dst should be NUll
	void copynode(CartNode*src, CartNode*dst);
	void cal_alpha(CartNode*node);
	vector<CartNode*>getLeaf(CartNode*node);
	void destroyTree(CartNode*node);
	int labelNode(CartNode*node);
	void create_root();
	void build_tree_classify(vector<int>&subdatasetbyID,
		CartNode*node, const vector<Record>*dataset);
	void build_tree_regression();
public:
	void load_adult_dataset();
	int CART_classify(const Record dataset, CartNode*root = NULL);
	void CART_regression();
	void CART_trian(const vector<Record>*dataset, const vector<Record>*validationdataset);
	void CART_trian()
	{
		CART_trian(traindataset, validatedataset);
	}
	void set_paras();
	~cart()
	{
		destroyTree(root);
		if (traindataset != NULL)
			delete traindataset;
		if (validatedataset != NULL)
			delete validatedataset;
	}
	vector<Record>*traindataset;//as it's name
	vector<Record>*validatedataset;
	vector<Record>*testdataset;
	void test(CartNode*node);
	void test();
};
void cart::test(CartNode*node)
{
	int errorNum = 0;
	for (int j = 0; j < testdataset->size(); j++)
	{
		errorNum += CART_classify((*testdataset)[j], node) == (*testdataset)[j].label ? 0 : 1;
	}
	cout << "测试集上的错误率为" << double(errorNum) / testdataset->size();

}

void cart::test()
{
	test(this->root);

}



void cart::set_paras()
{
	CL_max_height = 6;


}
void cart::CART_trian(const vector<Record>*dataset, const vector<Record>*validationdataset)
{
	create_root();
	set_paras();
	vector<int>subset;
	for (int i = 0; i < dataset->size(); i++)
		subset.push_back(i);
	build_tree_classify(subset, root, dataset);
	CL_trim(validationdataset);
}


void cart::destroyTree(CartNode*treeroot)
{
	_ASSERTE(treeroot != NULL);
	vector<CartNode*>pool, que;
	que.push_back(treeroot);
	while (!que.empty())
	{
		CartNode*node = que.back();
		que.pop_back();
		pool.push_back(node);
		if (node->lnode != NULL)
		{
			_ASSERTE(node->rnode != NULL);
			pool.push_back(node->lnode);
			pool.push_back(node->rnode);
		}
	}
	for (int i = 0; i < pool.size(); i++)
		delete pool[i];
}

void cart::copynode(CartNode*src, CartNode*dst)
{
	_ASSERTE(dst != NULL);
	_ASSERTE(src != NULL);
	dst->alpha = src->alpha;
	dst->continuousAttriPartitionValue = src->continuousAttriPartitionValue;
	dst->height = src->height;
	dst->isSelectedAttriIDDiscrete = src->isSelectedAttriIDDiscrete;
	dst->label = src->label;
	dst->labelcount = src->labelcount;
	dst->record_number = src->record_number;
	dst->remianDiscreteAttriID = src->remianDiscreteAttriID;
	dst->selectedAttriID = src->selectedAttriID;
	dst->selectedDiscreteAttriValues = src->selectedDiscreteAttriValues;

}

//implementation of tree copy
cart::CartNode* cart::copytree(CartNode*Srctreeroot, CartNode*Dsttreeroot)
{
	_ASSERTE(Dsttreeroot == NULL);
	_ASSERTE(Srctreeroot != NULL);

	vector<CartNode*>pool, parentpool;
	Dsttreeroot = new CartNode;
	copynode(Srctreeroot, Dsttreeroot);
	if (Srctreeroot->lnode == NULL)
	{
		_ASSERTE(Srctreeroot->rnode == NULL);
		return Dsttreeroot;
	}
	pool.push_back(Srctreeroot->lnode);
	pool.push_back(Srctreeroot->rnode);
	parentpool.push_back(Dsttreeroot);

	bool lnodeflag = false;
	while (!pool.empty())
	{
		CartNode*node = pool.back();
		pool.pop_back();
		CartNode*newnode = new CartNode;
		copynode(node, newnode);
		if (!lnodeflag)
			parentpool.back()->rnode = newnode;
		else
			parentpool.back()->lnode = newnode;
		if (node->lnode != NULL)
		{
			_ASSERTE(node->rnode != NULL);
			if (lnodeflag)
				parentpool.pop_back();
			lnodeflag = false;
			pool.push_back(node->lnode);
			pool.push_back(node->rnode);

			parentpool.push_back(newnode);
		}
		else
		{
			if (lnodeflag)
				parentpool.pop_back();
			else
				lnodeflag = !lnodeflag;
		}
	}
	_ASSERTE(parentpool.empty());
	_ASSERTE(Dsttreeroot);
	return Dsttreeroot;
}

int cart::CART_classify(const Record rd, CartNode*treeroot)
{
	if (treeroot == NULL)
		treeroot = this->root;
	CartNode*node = treeroot;
	while (true)
	{
		if (node->lnode == NULL)
		{
			_ASSERTE(node->rnode == NULL);
			return node->label;
		}
		if (node->isSelectedAttriIDDiscrete)
		{
			if (find(node->selectedDiscreteAttriValues.begin(),
				node->selectedDiscreteAttriValues.end(),
				rd.discrete_attri[node->selectedAttriID])
				== node->selectedDiscreteAttriValues.end())
			{
				node = node->rnode;
			}
			else
			{
				node = node->lnode;
			}
		}
		else
		{
			if (rd.continuous_attti[node->selectedAttriID] >= node->continuousAttriPartitionValue)
			{
				node = node->rnode;
			}
			else
			{
				node = node->lnode;
			}
		}
	}
	//should not run here
	_ASSERTE(false);
}


void cart::CL_trim(const vector<Record>*validationdataset)
{
	vector<CartNode*>candidateBestTree;
	CartNode*curretroot = root;
	while (curretroot->lnode != NULL)//&&root->rnode!=NULL
	{
		vector<CartNode*>pool;
		pool.push_back(curretroot);
		double min_alpha = 10000000;
		CartNode*tobecut = NULL;
		while (!pool.empty())
		{
			CartNode*node = pool.back();
			pool.pop_back();
			if (node->lnode != NULL)
			{
				_ASSERTE(node->rnode != NULL);
				cal_alpha(node);
				if (node->alpha < min_alpha)
				{
					min_alpha = node->alpha;
					tobecut = node;
				}
				pool.push_back(node->rnode);
				pool.push_back(node->lnode);
			}
		}
		_ASSERTE(tobecut != NULL);
		//then delete tobecut's child and son node
		vector<CartNode*>alltodel, temppool;
		temppool.push_back(tobecut);
		while (!temppool.empty())
		{
			CartNode*nn = temppool.back();
			temppool.pop_back();
			alltodel.push_back(nn);
			if (nn->lnode != NULL)
			{
				_ASSERTE(nn->rnode != NULL);
				temppool.push_back(nn->lnode);
				temppool.push_back(nn->rnode);
			}
		}
		alltodel.erase(find(alltodel.begin(), alltodel.end(), tobecut));
		for (int i = 0; i < alltodel.size(); i++)
			delete alltodel[i];
		tobecut->lnode = tobecut->rnode = NULL;



		candidateBestTree.push_back(curretroot);
		CartNode*nextroot = NULL;
		nextroot = copytree(curretroot, nextroot);
		_ASSERTE(nextroot);
		curretroot = nextroot;
	}

	//get the best tree
	int minError = validationdataset->size();
	CartNode*besttree = NULL;
	int th = -1;
	vector<int>candidateBestTreeErrorNums;
	for (int i = 0; i < candidateBestTree.size(); i++)
	{
		int errorNum = 0;
		for (int j = 0; j < validationdataset->size(); j++)
		{
			errorNum += CART_classify((*validationdataset)[j],
				candidateBestTree[i]) == (*validationdataset)[j].label ? 0 : 1;
		}
		//error /= (*validationdataset).size();
		candidateBestTreeErrorNums.push_back(errorNum);
		if (errorNum < minError)
		{
			minError = errorNum;
			th = i;
		}
	}

	test(candidateBestTree[th]);

	double SE = sqrt(double(minError*(validationdataset->size() - minError)) / validationdataset->size());
	for (int i = candidateBestTree.size() - 1; i >= 0; i--)
	{
		if (candidateBestTreeErrorNums[i] <= minError + SE)
		{
			besttree = candidateBestTree[i];
			th = i;
			break;
		}
	}
	candidateBestTree.erase(candidateBestTree.begin() + th);
	for (int i = 0; i < candidateBestTree.size(); i++)
		destroyTree(candidateBestTree[i]);
	_ASSERTE(besttree != NULL);
	root = besttree;
	cout << "剪枝后在验证集上的错误为" << (double)candidateBestTreeErrorNums[th] / validationdataset->size() << endl;
}


void cart::cal_alpha(CartNode*node)
{
	_ASSERTE(node->lnode != NULL&&node->rnode != NULL);
	int max_nodelabel = -1;
	for (int i = 0; i < labelNums; i++)
	{
		if (node->labelcount[i] > max_nodelabel)
		{
			max_nodelabel = node->labelcount[i];
		}
	}
	double Rt = double(max_nodelabel) / node->record_number*node->record_number / traindataset->size();
	double RTt = 0;
	vector<CartNode*>leafpool = getLeaf(node);
	for (int i = 0; i < leafpool.size(); i++)
	{
		RTt += double(leafpool[i]->record_number - leafpool[i]->labelcount[leafpool[i]->label]) /
			traindataset->size();
	}
	node->alpha = (Rt - RTt) / (leafpool.size() - 1);
}


vector<cart::CartNode*>cart::getLeaf(CartNode*node)
{
	vector<CartNode*>leafpool, que;
	que.push_back(node);
	while (!que.empty())
	{
		CartNode*nn = que.back();
		que.pop_back();
		if (nn->lnode != NULL)
			que.push_back(nn->lnode);
		else
		{
			_ASSERTE(nn->rnode == NULL);
			if (find(leafpool.begin(), leafpool.end(), nn) == leafpool.end())
				leafpool.push_back(nn);
		}

		if (nn->rnode != NULL)
			que.push_back(nn->rnode);
		else
		{
			_ASSERTE(nn->lnode == NULL);
			if (find(leafpool.begin(), leafpool.end(), nn) == leafpool.end())
				leafpool.push_back(nn);
		}
	}
	return leafpool;
}


pair<vector<int>, vector<int>>cart::split_dataset(const int&selectedDiscreteAttriID,
	vector<int>&selected, const vector<int>&subdatasetbyID, const vector<Record>*dataset)
{
	vector<int>aa, bb;
	for (int i = 0; i < subdatasetbyID.size(); i++)
	{
		if (find(selected.begin(), selected.end(), (*dataset)[subdatasetbyID[i]].
			discrete_attri[selectedDiscreteAttriID]) == selected.end())
		{
			bb.push_back(subdatasetbyID[i]);
		}
		else
			aa.push_back(subdatasetbyID[i]);
	}
	return pair<vector<int>, vector<int>>(aa, bb);
}

pair<vector<int>, vector<int>>cart::split_dataset(const int&selectedContiuousAttriID,
	const double partition, const vector<int>&subdatasetbyID, const vector<Record>*dataset)
{
	vector<int>aa, bb;
	for (int i = 0; i < subdatasetbyID.size(); i++)
	{
		if ((*dataset)[subdatasetbyID[i]].continuous_attti[selectedContiuousAttriID] >= partition)
		{
			bb.push_back(subdatasetbyID[i]);
		}
		else
			aa.push_back(subdatasetbyID[i]);
	}
	return pair<vector<int>, vector<int>>(aa, bb);

}
set<set<int>>solu;
void select(set<int>&selected, vector<int>&remain, int toselect)
{
	if (selected.size() == toselect)
	{
		if (solu.find(selected) == solu.end())
		{
			solu.insert(selected);
			//for (set<int>::iterator it = selected.begin(); it != selected.end(); it++)
			//	cout << *it << ",";
			//cout << endl;
		}
		return;
	}
	for (int i = 0; i < remain.size(); i++)
	{
		vector<int> re = remain;
		set<int>se = selected;
		se.insert(re[i]);
		re.erase(re.begin() + i);
		select(se, re, toselect);
	}
}
void Combination(vector<int>remain, int toselect)//组合  
{
	solu.clear();
	set<int>selected;
	select(selected, remain, toselect);
	//cout << "共有" << solu.size() << "种组合" << endl;
}

vector<pair<vector<int>, vector<int>>>cart::make_two_heap(const int kk)
{
	vector<pair<vector<int>, vector<int>>>toret;
	int len = nums_of_value_each_discreteAttri[kk];
	set<set<int>>re;
	vector<int>remain;
	for (int i = 0; i < len; i++)
		remain.push_back(i);
	for (int i = 1; i < len / 2 + 1; i++)
	{
		Combination(vector<int>(remain), i);
		re.insert(solu.begin(), solu.end());
	}
	for (set<set<int>>::iterator it = re.begin(); it != re.end(); it++)
	{
		vector<int>aa, bb;//bb(*it);
		set_difference(it->begin(), it->end(),
			remain.begin(), remain.end(), inserter(aa, aa.begin()));
		bb.insert(bb.begin(), it->begin(), it->end());

		toret.push_back(pair<vector<int>, vector<int>>(aa, bb));
	}
	return toret;
}

void cart::create_root()
{
	if (root == NULL)
	{
		root = new CartNode;
		for (int i = 0; i < nums_of_value_each_discreteAttri.size(); i++)
			root->remianDiscreteAttriID.push_back(i);
		root->height = 1;

	}
}

int cart::allthesame(vector<int>&subdatasetbyID, const vector<Record>*dataset)
{
	vector<int>count(labelNums);
	int label = ((*dataset)[subdatasetbyID[0]]).label;
	for (int i = 1; i < subdatasetbyID.size(); i++)
		if (((*dataset)[subdatasetbyID[i]]).label != label)
			return -1;
	return label;
}

//build classify tree recursively
void cart::build_tree_classify(vector<int>&subdatasetbyID,
	CartNode*node, const vector<Record>*dataset)
{
	node->record_number = subdatasetbyID.size();
	double basegini = calGiniIndex(subdatasetbyID, dataset, node);
	int currentlabel = allthesame(subdatasetbyID, dataset);
	if (currentlabel >= 0)
	{
		node->label = currentlabel;
		return;
	}
	if (node->height >= CL_max_height)
	{
		node->label = labelNode(node);
		return;
	}
	node->label = labelNode(node);
	double mingini = 10000000000;
	int selected = -1;
	bool isSelectedDiscrete = true;
	vector<int>selectedDiscreteAttriValues;
	pair<vector<int>, vector<int>>splited_subdataset;
	bool lnodeDecreaseDiscreteAttri = false;//is node's lnode's discrete attribute nums decrease
	bool rnodeDecreaseDiscreteAttri = false;



	//for discrete features,calculate giniindex
	for (int i = 0; i < node->remianDiscreteAttriID.size(); i++)
	{
		if (nums_of_value_each_discreteAttri[node->remianDiscreteAttriID[i]] > 2)
		{
			vector<pair<vector<int>, vector<int>>>bipart = make_two_heap(node->remianDiscreteAttriID[i]);
			for (int j = 0; j < bipart.size(); j++)
			{
				pair<vector<int>, vector<int>>two_subdataset = split_dataset(
					node->remianDiscreteAttriID[i], bipart[i].first, subdatasetbyID, dataset);
				if (two_subdataset.first.size() > 0 && two_subdataset.second.size() > 0)
				{
					double gini1 = calGiniIndex(two_subdataset.first, dataset);
					double gini2 = calGiniIndex(two_subdataset.second, dataset);
					double gini = double(two_subdataset.first.size()) / subdatasetbyID.size()*gini1
						+ double(two_subdataset.second.size()) / subdatasetbyID.size()*gini2;
					if (gini < mingini)
					{
						if (bipart[i].first.size() == 1)
							lnodeDecreaseDiscreteAttri = true;
						else
							lnodeDecreaseDiscreteAttri = false;
						if (bipart[i].second.size() == 1)
							rnodeDecreaseDiscreteAttri = true;
						else
							rnodeDecreaseDiscreteAttri = false;
						mingini = gini;
						selected = node->remianDiscreteAttriID[i];
						splited_subdataset = two_subdataset;
						selectedDiscreteAttriValues = bipart[i].first;
					}
				}
			}
		}
		else
		{
			vector<int>aa;
			aa.push_back(0);
			pair<vector<int>, vector<int>>two_subdataset = split_dataset(node->remianDiscreteAttriID[i],
				aa, subdatasetbyID, dataset);
			if (two_subdataset.first.size() > 0 && two_subdataset.second.size() > 0)
			{
				double gini1 = calGiniIndex(two_subdataset.first, dataset);
				double gini2 = calGiniIndex(two_subdataset.second, dataset);
				double gini = double(two_subdataset.first.size()) / subdatasetbyID.size()*gini1
					+ double(two_subdataset.second.size()) / subdatasetbyID.size()*gini2;
				if (gini < mingini)
				{
					mingini = gini;
					selected = node->remianDiscreteAttriID[i];
					splited_subdataset = two_subdataset;
					lnodeDecreaseDiscreteAttri = true;
					rnodeDecreaseDiscreteAttri = true;
					selectedDiscreteAttriValues.clear();
					selectedDiscreteAttriValues.push_back(0);
				}
			}
		}
	}
	// 利用函数对象实现升降排序    
	struct CompNameEx{
		CompNameEx(bool asce, int k, const vector<Record>*dataset) : asce_(asce), kk(k), dataset(dataset)
		{}
		bool operator()(int const& pl, int const& pr)
		{
			return asce_ ? (*dataset)[pl].continuous_attti[kk] < (*dataset)[pr].continuous_attti[kk]
				: (*dataset)[pr].continuous_attti[kk] < (*dataset)[pl].continuous_attti[kk];
			// 《Eff STL》条款21: 永远让比较函数对相等的值返回false    
		}
	private:
		bool asce_;
		int kk;
		const vector<Record>*dataset;
	};

	//for continuous features,calculate giniindex
	double partitionpoint;
	for (int i = 0; i < ContinuousAttriNums; i++)
	{
		sort(subdatasetbyID.begin(), subdatasetbyID.end(),
			CompNameEx(true, i, dataset));
		for (int j = 0; j < subdatasetbyID.size() - 1; j++)
		{
			double partition = 0.5*(*dataset)[subdatasetbyID[j]].continuous_attti[i] +
				0.5*(*dataset)[subdatasetbyID[j + 1]].continuous_attti[i];
			pair<vector<int>, vector<int>>two_subdataset =
				split_dataset(i, partition, subdatasetbyID, dataset);
			if (two_subdataset.first.size() > 0 && two_subdataset.second.size() > 0)
			{
				double gini1 = calGiniIndex(two_subdataset.first, dataset);
				double gini2 = calGiniIndex(two_subdataset.second, dataset);
				double gini = double(two_subdataset.first.size()) / subdatasetbyID.size()*gini1
					+ double(two_subdataset.second.size()) / subdatasetbyID.size()*gini2 + log(double(subdatasetbyID.size() - 2) / dataset->size()) / log(2.0);
				if (gini < mingini)
				{
					partitionpoint = partition;
					mingini = gini;
					selected = i;
					isSelectedDiscrete = false;
					splited_subdataset = two_subdataset;
				}
			}
		}
	}

	//we have prune,so regardless of ginigain
	//double ginigain = basegini - mingini;//if not greater than miniumginigain;current node should not grow 

	if (splited_subdataset.first.size() > 0 && splited_subdataset.second.size() > 0)//&&ginigain>miniumginigain)
	{
		CartNode*lchild = new CartNode;
		CartNode*rchild = new CartNode;
		node->lnode = lchild;
		node->rnode = rchild;
		lchild->height = node->height + 1;
		rchild->height = node->height + 1;
		lchild->remianDiscreteAttriID = node->remianDiscreteAttriID;
		rchild->remianDiscreteAttriID = node->remianDiscreteAttriID;
		node->selectedAttriID = selected;
		if (isSelectedDiscrete)
		{
			if (lnodeDecreaseDiscreteAttri)
			{
				lchild->remianDiscreteAttriID.erase(find(lchild->
					remianDiscreteAttriID.begin(), lchild->remianDiscreteAttriID.end(), selected));
			}
			if (rnodeDecreaseDiscreteAttri)
			{
				rchild->remianDiscreteAttriID.erase(find(rchild->
					remianDiscreteAttriID.begin(), rchild->remianDiscreteAttriID.end(), selected));
			}
			node->selectedDiscreteAttriValues = selectedDiscreteAttriValues;
		}
		else
		{
			node->isSelectedAttriIDDiscrete = false;
			node->continuousAttriPartitionValue = partitionpoint;
		}
		//recursively call 	build_tree_classify()
		build_tree_classify(splited_subdataset.first, lchild, dataset);

		build_tree_classify(splited_subdataset.second, rchild, dataset);
	}
}


double cart::calGiniIndex(vector<int>&subdatasetbyID, const vector<Record>*dataset, CartNode*node)
{
	_ASSERTE(subdatasetbyID.size() > 0);
	_ASSERTE(dataset != NULL);
	vector<int>count;
	count.resize(labelNums);
	for (int i = 0; i < subdatasetbyID.size(); i++)
	{
		count[((*dataset)[subdatasetbyID[i]]).label]++;
	}
	if (node != NULL)
	{
		node->labelcount = count;
		node->record_number = subdatasetbyID.size();
	}
	vector<double> probalblity;
	probalblity.resize(labelNums);
	double re = 1;
	for (int i = 0; i < labelNums; i++)
	{
		probalblity[i] = double(count[i]) / subdatasetbyID.size();
		re -= pow(probalblity[i], 2);
	}
	_ASSERTE(re >= 0);
	return re;
}

int cart::labelNode(CartNode*node)
{
	int label = -1;
	double maxpro = 0;
	for (int i = 0; i < labelNums; i++)
	{
		double temppro = double(node->labelcount[i]) / node->record_number;
		temppro /= double(root->labelcount[i]) / root->record_number;
		if (temppro > maxpro)
		{
			maxpro = temppro;
			label = i;
		}
	}
	_ASSERTE(label >= 0);
	return label;
}






int split(const std::string& str, std::vector<std::string>& ret_, std::string sep = ",")
{
	if (str.empty())
	{
		return 0;
	}

	std::string tmp;
	std::string::size_type pos_begin = str.find_first_not_of(sep);
	std::string::size_type comma_pos = 0;

	while (pos_begin != std::string::npos)
	{
		comma_pos = str.find(sep, pos_begin);
		if (comma_pos != std::string::npos)
		{
			tmp = str.substr(pos_begin, comma_pos - pos_begin);
			pos_begin = comma_pos + sep.length();
		}
		else
		{
			tmp = str.substr(pos_begin);
			pos_begin = comma_pos;
		}

		if (!tmp.empty())
		{
			ret_.push_back(tmp);
			tmp.clear();
		}
	}
	return 0;
}





//说明，因为education，workclass,marital-status,occupation，native country属性太多，不作考虑
void cart::load_adult_dataset()
{
	vector<Record>*traindataset;//as it's name
	vector<Record>*validatedataset;
	string filename = "adult.data";
	ifstream infile(filename.c_str());
	string temp;
	cout << endl;
	int count = 0;
	//vector<vector<std::string>>ss;
	traindataset = new vector < Record > ;
	validatedataset = new vector < Record > ;
	this->traindataset = traindataset;
	this->validatedataset = validatedataset;
	testdataset = new vector < Record > ;
	//Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked

	/*map<string, int>workclass;
	workclass["Private"] = 0;
	workclass["Self-emp-not-inc"] = 1;
	workclass["Self-emp-inc"] = 2;
	workclass["Federal-gov"] = 3;
	workclass["Local-gov"] = 4;
	workclass["State-gov"] = 5;
	workclass["Without-pay"] = 6;
	workclass["Never-worked"] = 7;*/

	//education: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th,
	// 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.

	/*map<string, int>education;
	education["Bachelors"] = 0;
	education["Some-college"] = 1;
	education["11th"] = 2;
	education["HS-grad"] = 3;
	education["Prof-school"] = 4;
	education["Assoc-acdm"] = 5;
	education["Assoc-voc"] = 6;
	education["9th"] = 7;
	education["7th-8th"] = 8;
	education["12th"] = 9;
	education["Masters"] = 10;
	education["1st-4th"] = 11;
	education["10th"] = 12;
	education["Doctorate"] = 13;
	education["5th-6th"] = 14;
	education["Preschool"] = 15;
	*/
	//marital-status: Married-civ-spouse, Divorced, Never-married, Separated, Widowed,
	// Married-spouse-absent, Married-AF-spouse.
	/*map<string, int>marital_status;
	marital_status["Married-civ-spouse"] = 0;
	marital_status["Divorced"] = 1;
	marital_status["Never-married"] = 2;
	marital_status["Separated"] = 3;
	marital_status["Widowed"] = 4;
	marital_status["Married-spouse-absent"] = 5;
	marital_status["Married-AF-spouse"] = 6;*/

	//occupation: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, 
	//Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing,
	// Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.
	/*map<string, int>occupation;
	occupation["Tech-support"] = 0;
	occupation["Craft-repair"] = 1;
	occupation["Other-service"] = 2;
	occupation["Sales"] = 3;
	occupation["Exec-managerial"] = 4;
	occupation["Prof-specialty"] = 5;
	occupation["Handlers-cleaners"] = 6;
	occupation["Machine-op-inspct"] = 7;
	occupation["Adm-clerical"] = 8;
	occupation["Farming-fishing"] = 9;
	occupation["Transport-moving"] = 10;
	occupation["Priv-house-serv"] = 11;
	occupation["Protective-serv"] = 12;
	occupation["Armed-Forces"] = 13;
	*/

	//relationship: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.

	map<string, int>relationship;
	relationship["Wife"] = 0;
	relationship["Own-child"] = 1;
	relationship["Husband"] = 2;
	relationship["Not-in-family"] = 3;
	relationship["Other-relative"] = 4;
	relationship["Unmarried"] = 5;

	//race: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.

	map<string, int>race;
	race["White"] = 0;
	race["Asian-Pac-Islander"] = 1;
	race["Amer-Indian-Eskimo"] = 2;
	race["Other"] = 3;
	race["Black"] = 4;

	//sex: Female, Male.
	map<string, int>sex;
	sex["Female"] = 0;
	sex["Male"] = 1;

	//native-country: United-States, Cambodia, England, Puerto-Rico, Canada, Germany, 
	//Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran,
	// Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, 
	//Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia,
	// Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, 
	//Trinadad&Tobago, Peru, Hong, Holand-Netherlands.
	map<string, int>label;
	label["<=50K"] = 0;
	label[">50K"] = 1;


	while (getline(infile, temp) && count < 7000)
	{

		Record rd;
		rd.continuous_attti.resize(6);
		rd.discrete_attri.resize(3);
		//cout << temp << endl;

		std::vector<std::string>re;
		split(temp, re, std::string(", "));
		bool desert = false;
		if (re.size() == 15)
		{

			/*age: continuous.
			workclass: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.
			fnlwgt: continuous.
			education: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
			education-num: continuous.
			marital-status: Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.
			occupation: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.
			relationship: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.
			race: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.
			sex: Female, Male.
			capital-gain: continuous.
			capital-loss: continuous.
			hours-per-week: continuous.
			native-country: United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.*/


			//age continuous
			rd.continuous_attti[0] = atoi(re[0].c_str());

			//workclass discrete
			/*if (workclass.find(re[1]) != workclass.end())
				rd.discrete_attri[0] = workclass[re[1]];
				else
				desert=true;*/

			//fnlwgt: continuous
			rd.continuous_attti[1] = atoi(re[2].c_str());

			//education: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
			/*if (education.find(re[3]) != education.end())
				rd.discrete_attri[1] = education[re[3]];
				else
				desert=true;*/

			//education-num: continuous.
			rd.continuous_attti[2] = atoi(re[4].c_str());

			//marital-status
			/*if (marital_status.find(re[5]) != marital_status.end())
				rd.discrete_attri[1] = marital_status[re[5]];
				else
				desert=true;*/

			//relationship: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.
			if (relationship.find(re[7]) != relationship.end())
				rd.discrete_attri[0] = relationship[re[7]];
			else
				desert = true;

			//race
			if (race.find(re[8]) != race.end())
				rd.discrete_attri[1] = race[re[8]];
			else
				desert = true;

			//sex
			if (sex.find(re[9]) != sex.end())
				rd.discrete_attri[2] = sex[re[9]];
			else
				desert = true;

			//capital-gain: continuous.
			rd.continuous_attti[3] = atoi(re[10].c_str());

			//capital-loss: continuous.

			rd.continuous_attti[4] = atoi(re[11].c_str());
			//hours-per-week: continuous
			rd.continuous_attti[5] = atoi(re[12].c_str());

			if (label.find(re[14]) != label.end())
				rd.label = label[re[14]];
			else
				desert = true;
			if (!desert)
				if (count < 3500)
				{
					traindataset->push_back(rd);
				}
				else if (count < 4500)
				{
					validatedataset->push_back(rd);
				}
				else
					testdataset->push_back(rd);
		}
		count++;
	}
	ContinuousAttriNums = 6;
	labelNums = 2;
	int aa[3] = { 6, 5, 2 };
	nums_of_value_each_discreteAttri.push_back(6);
	nums_of_value_each_discreteAttri.push_back(5);
	nums_of_value_each_discreteAttri.push_back(2);


}

int _tmain(int argc, _TCHAR* argv[])
{

	cart cart;
	cart.load_adult_dataset();
	cart.CART_trian();
	cart.test();
	system("pause");
	return 0;
}

可能不太完善，大体框架是这样了，具体细节可能处理不好。欢迎大家指点。

遗留问题：

先验概率和分类平衡

误分类成本的引入

支持权重，对于不同的样本赋予不同的权重值

动态特征构架

值敏感学习

概率树

回归树细节

模型树

你可能感兴趣的:(机器学习,决策树)

深入解析：大型机器学习模型的基本概念与特点 AI大模型-大飞机器学习人工智能 AI大模型 AI 神经网络大模型
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的基本概念出发，对大模型领域容易混淆的相关概念进行区分，并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。本文目录如下：·大模型的定义·大模型相关概念区分·大模型的发展历程·大模型的特点·大模型的分类·大模型的泛化与微调1.大模型的定义大模型是指具有大规模参数和复杂计算结
深入浅出 K 近邻算法：原理、实践与应用烂蜻蜓机器学习近邻算法算法
引言在机器学习的众多算法中，K近邻算法（K-NearestNeighbors，简称KNN）以其简洁而强大的特性占据着重要地位。它既可以用于分类任务，也能在回归任务中发挥作用。无论是处理简单数据集，还是面对复杂的数据分布，KNN都展现出独特的魅力。本文将深入探讨KNN算法的原理、特点、优缺点、实现步骤以及在分类和回归任务中的具体应用。KNN算法的基本原理KNN算法属于监督学习范畴，其核心思想质朴而直
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
【大模型学习】第十九章什么是迁移学习好多渔鱼好多 AI大模型人工智能大模型 AI 机器学习迁移学习
目录1.迁移学习的起源背景1.1传统机器学习的问题1.2迁移学习的提出背景2.什么是迁移学习2.1迁移学习的定义2.2生活实例解释3.技术要点与原理3.1迁移学习方法分类3.1.1基于特征的迁移学习（Feature-basedTransfer）案例说明代码示例3.1.2基于模型的迁移（Model-basedTransfer）案例说明BERT用于情感分析的例子3.1.3基于实例的迁移（Instanc
XGBoost算法深度解析：从原理到实践彩旗工作室人工智能算法机器学习人工智能
一、算法起源与核心思想XGBoost（eXtremeGradientBoosting）由陈天奇于2014年提出，是梯度提升决策树（GBDT）的优化版本。其核心思想通过迭代集成弱学习器（CART树）逐步修正预测误差，并引入正则化机制控制模型复杂度，防止过拟合。与GBDT相比，XGBoost在目标函数中融合了损失函数（衡量预测误差）和正则化项（约束树结构与叶子权重），形成结构风险最小化框架，从而提升泛
Python实现机器学习项目教程：房价预测向着开发进攻 python python 机器学习开发语言
Python实现机器学习小项目教程：房价预测案例机器学习（MachineLearning）是数据科学中的一项重要技术，它通过从数据中学习规律，进行预测和决策。对于初学者来说，通过实际的项目来学习机器学习的原理和实现方法，是非常有效的。本篇教程将通过Python实现一个简单的机器学习小项目——房价预测。我们将使用scikit-learn库来构建并训练一个线性回归模型，预测房价。项目背景假设我们拥有一
AI Agent在企业预算管理与成本控制中的应用 SuperAGI2025 DeepSeek 人工智能大数据 ai
AIAgent在企业预算管理与成本控制中的应用关键词：AIAgent、企业预算管理、成本控制、机器学习、预测模型、优化算法摘要：本文深入探讨了AIAgent在企业预算管理与成本控制中的应用。通过详细的背景介绍、核心概念解析、算法原理讲解和实际案例剖析，本文展示了AIAgent如何通过智能预测和优化算法，为企业带来更高的效率和精确度，从而实现成本控制和预算优化的目标。背景介绍核心概念AIAgent:
常见的深度学习优化器青灯剑客算法 python 人工智能机器学习自然语言处理深度学习
一直用优化器解决问题，但是没有对它进行一个系统的总结。。不对，系统的总结进行过，只是时过境迁，早已忘却。一、照进我脑海的几个家伙一开始学习的当然是SGD，只是学着学着就忘记了。后来呢，接触到网上介绍的几种常用的优化器，看着原理挺给力，可是记了好几次都记不住。直到遇到《百面机器学习》，它从最基本的原理出发，给了我一点灵感。（1）几种常用的优化器，详情见这里链接34（2）二、以为自己遇见了大海老师说，
PyTorch 和 Python关系一只积极向上的小咸鱼 python pytorch 人工智能
1PyTorch和Python关系PyTorch和Python是两个不同但相互关联的工具，主要用于机器学习和深度学习领域。以下是它们之间的关系和各自的作用：Python编程语言:Python是一种高级编程语言，以其简洁易读的语法而闻名。广泛使用:Python在数据科学、人工智能、Web开发、自动化等多个领域有着广泛的应用。库和生态系统丰富:Python拥有丰富的第三方库和工具，如NumPy、pan
Python与人工智能：为何它们是天作之合？纪至训至 python 人工智能开发语言
引言在人工智能（AI）飞速发展的今天，Python已成为这一领域的“明星语言”。从机器学习到深度学习，从自然语言处理到计算机视觉，Python的身影无处不在。那么，Python究竟为何能成为AI开发的首选工具？本文将探讨Python与AI之间的深度关联，并解析其背后的原因。1.Python的简洁性与可读性AI开发的核心在于快速迭代和实验，而Python以其简洁的语法和直观的代码结构著称。开发者无需
Python深度学习033：Python、PyTorch、CUDA和显卡驱动之间的关系若北辰 Python深度学习 python 深度学习 pytorch
Python、PyTorch、CUDA和显卡驱动之间的关系相当紧密，它们共同构成了一个能够执行深度学习模型的高效计算环境。下面是它们之间关系的简要概述：PythonPython是一种编程语言，广泛用于科学计算、数据分析和机器学习。它是开发和运行PyTorch代码的基础环境。PyTorchPyTorch是一个开源的机器学习库，用于应用如自然语言处理和计算机视觉的深度学习模型。它提供了丰富的API，使
机器学习算法在司法预测中的应用【附保姆级代码】一键难忘机器学习算法人工智能
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~机器学习算法在司法预测中的应用司法预测作为法律领域的前沿研究
PyTorch深度学习框架60天进阶学习计划 - 第19天：时间序列预测凡人的AI工具箱深度学习 pytorch 学习人工智能 AI编程迁移学习 python
PyTorch深度学习框架60天进阶学习计划-第19天：时间序列预测目录时间序列预测概述滑动窗口数据构造方法归一化策略对比：MinMaxvsZ-ScoreLSTM基础原理Attention机制与LSTM结合LSTM-Attention模型实现TeacherForcing技术与应用Prophet基准模型对比多步预测的滚动验证方法综合实战：股票价格预测1.时间序列预测概述时间序列预测是机器学习中的一个
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
大模型相关知识学习随记 m0_65156252 语言模型人工智能自然语言处理
2024/3/151，概念解释：通义千问，是阿里云推出的一个超大规模的语言模型，功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。能够跟人类进行多轮的交互，也融入了多模态的知识理解，且有文案创作能力，能够续写小说，编写邮件等。2，多模态大模型：多模态大模型是一种基于深度学习的机器学习技术，其核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
Anaconda与VS Code wei099
最近在学习机器学习和计算机视觉，使用GoogleColab来运行网上的示例代码。考虑到网页上写代码效率太低，没有代码补全功能，没有函数提示，不利于对代码的了解，于是还是决定折腾一下在自己的Windows本上安装工作环境。想要学习机器学习的技能，不可避免要具备熟练使用Python编程的能力。Anaconda是Python软件包管理器，可以大大减少使用者安装各种包的麻烦，提高工作效率。我先后安装了An
适合机器学习的Linux系统推荐及基本配置指南金外飞176 信息分享机器学习 linux 人工智能
适合机器学习的Linux系统推荐及基本配置指南在机器学习领域，选择一个合适的Linux发行版至关重要。它不仅影响开发效率，还可能影响模型训练的性能。经过广泛调研和用户反馈，Ubuntu脱颖而出，成为众多机器学习爱好者的首选。下面将详细介绍为何推荐Ubuntu以及其基本配置需求。一、推荐Ubuntu的理由1.用户友好的界面和强大的社区支持Ubuntu提供了直观的图形用户界面，对于初次接触Linux的
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南快撑死的鱼 python算法解析 python 开发语言
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南火灾是一种常见而危险的自然灾害，在工业、家庭和公共场所中，实时检测火焰并做出响应是保障安全的重要手段。随着计算机视觉技术的发展，使用图像处理和机器学习的方法进行火焰检测已经成为可能。Python作为一种功能强大且广泛使用的编程语言，提供了丰富的库和工具，能够有效地实现火焰检测和识别。在本文中，我们将深入探讨如何使用Python进行火
[每日一学]数据分析与可视化：anaconda与pythoncharm使用上的区别之处及优越点，使用哪款比较好用拼命绽放 python 开发语言
anaconda、.jupyter·jupyter的基本使用，开发环境与pythoncharm有什么区别？在数据分析和可视化使用中有什么区别？哪个在数据分析和可视化上更占优势？如果用pythoncharm如何去实现数据分析与可视化有影响吗？一、Anaconda是一个开源的Python发行版本，集成了多个常用的数据科学、机器学习、深度学习等相关工具，例如JupyterNotebook、Spyder、
差分革命：清华微软携手，用物理智慧重塑Transformer“慧眼” YINWA AI 人工智能科技 AI 人工智能科技 ai
当物理学遇上AI，一场精准捕捉的变革悄然上演想象一下，在信息的汪洋大海中，寻找一根至关重要的“针”，难度无异于“大海捞针”。然而，随着诺贝尔物理学奖的光芒照耀到“机器学习之父”GeoffreyHinton的肩头，另一场跨界融合也在悄然进行——微软与清华大学的科研团队携手，将物理学的智慧融入AI，推出DifferentialTransformer（DIFFTransformer），让Transfor
深度学习核心技术深度解析月落星还在深度学习深度学习人工智能
一、深度学习的本质与核心思想定义：通过多层非线性变换，自动学习数据层次化表征的机器学习方法核心突破：表征学习：自动发现数据的内在规律，无需人工设计特征端到端学习：直接从原始输入到最终输出，消除中间环节的信息损失分布式表示：通过神经元激活模式的组合，指数级提升表达能力数学本质：f(x)=WLσ(WL−1σ(...σ(W1x+b1)...)+bL−1)+bLf(x)=W_{L}σ(W_{L-1}σ(.
AI 界的包青天：GaussianNB 智断分类难题星际编程喵人工智能分类数据挖掘
前言在机器学习的江湖中，分类算法纷繁复杂，各具特色。有的深不可测，犹如隐世高人的内功心法，让人望而却步；有的则像街头小贩，简单直接却也能精准解决问题。江湖中高手云集，其中有一位侠客，宛如包青天，正气凛然，以公正无私和高效迅捷著称，擅长快速解决分类难题。此侠客正是GaussianNaïveBayes（高斯朴素贝叶斯，简称GaussianNB）。凭借朴素的假设与强大的数学支撑，GaussianNB在分
深度学习/机器学习入门基础数学知识整理（一）：线性代数基础，矩阵，范数等 chljerry_mouse 线性代数深度学习机器学习
前面大概有2年时间，利用业余时间断断续续写了一个机器学习方法系列，和深度学习方法系列，还有一个三十分钟理解系列（一些趣味知识）；新的一年开始了，今年给自己定的学习目标——以补齐基础理论为重点，研究一些基础课题；同时逐步继续写上述三个系列的文章。最近越来越多的研究工作聚焦研究多层神经网络的原理，本质，我相信深度学习并不是无法掌控的“炼金术”，而是真真实实有理论保证的理论体系；本篇打算摘录整理一些最最
图像识别技术与应用超帅的好吧笔记
第一节课这节课了解了这门专业的就业职位：工资是怎么样的岗位职责和任职要求看到了人类工业文明的演变了解了人工智能的研究、开发、模拟、延伸、理论、方法和技术看到了生活方式的转变比如智能语音闹钟控制系统、自动驾驶和人脸识别考勤智能购物、医疗日常生活的智能比如指纹、淘宝、抖音还能用软件看到天气的好坏了解了典型训练和机器学习中的关键组件机器学习中的关键组件包含：数据模型目标函数优化算法这节课学习了第一节剩下
AI概率学预测足球大小球让球数据分析 sanx18 人工智能数据分析数据挖掘
在足球数据分析中，AI概率学预测主要涉及大小球和让球盘口的分析。以下是关键点：1.大小球分析大小球指机构设定的进球数预期，投注者预测实际进球数是否超过或低于该值。AI应用：历史数据：AI通过分析球队的历史进球、失球等数据，预测未来比赛进球数。机器学习：使用回归模型、神经网络等预测进球数，考虑球队实力、比赛风格、天气等因素。实时数据：结合实时比赛数据动态调整预测。2.让球分析让球是机构为平衡双方实力
【梯度下降算法】蝉叫醒了夏天机器学习算法
梯度下降算法：第一章梯度下降的历史沿革1.1优化方法的演进脉络从17世纪牛顿时代的数值解法，到20世纪最优控制理论的发展，直至现代机器学习对优化算法的特殊需求，梯度下降算法在数学优化史上占据重要地位。1947年FrankRosenblatt在感知机研究中首次系统应用梯度下降思想1.2机器学习时代的复兴21世纪深度学习革命使梯度下降算法获得新生：2006年Hinton团队在深度信念网络中的突破应用2
sparkML入门，通俗解释机器学习的框架和算法 Tometor spark-ml 机器学习算法回归数据挖掘人工智能 scala
一、机器学习的整体框架（类比烹饪）假设你要做一道菜，机器学习的过程可以类比为：步骤-->烹饪类比-->机器学习对应1.确定目标|想做什么菜（红烧肉/沙拉）|明确任务(分类/回归/聚类)2.准备食材|买菜、洗菜、切菜|数据收集与预处理3.设计食谱|决定烹饪步骤和调料|选择算法和模型设计4.试做并尝味道|调整火候和调味|模型训练与调参5.最终成品|端上桌的菜|模型部署与应用二、机器学习的核心流程1.数
神经网络机器学习中说的过拟合是什么意思 yuanpan 机器学习神经网络人工智能
在神经网络和机器学习中，过拟合（Overfitting）是指模型在训练数据上表现非常好，但在未见过的测试数据上表现较差的现象。换句话说，模型过度学习了训练数据中的细节和噪声，导致其泛化能力（Generalization）下降，无法很好地适应新数据。过拟合的表现训练误差很低，但测试误差很高：模型在训练集上的准确率非常高，但在测试集上的准确率却显著下降。模型过于复杂：模型学习了训练数据中的噪声或不相关
造价算量审图多元化融合软件开发实战：技术架构与核心代码解析夏末之花架构
——从BIM模型解析到AI智能审图的完整实现路径1.技术架构设计该软件需融合以下模块：BIM/CAD模型解析引擎（支持Revit/DWG文件一键导入）智能算量核心算法（基于规则引擎与机器学习）协同审图平台（多人实时标注与版本控制）AI辅助决策系统（材料价格预测、工程量误差检测）技术栈推荐：前端：Three.js（3D模型渲染）+React（协同界面）后端：Python（算量算法）+Java（业务逻
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少