LTA_ALBlack

基于 Java 机器学习自学笔记（第61-62天：ID3决策树）

注意：本篇为50天后的Java自学笔记扩充，内容不再是基础数据结构内容而是机器学习中的各种经典算法。这部分博客更侧重于笔记以方便自己的理解，自我知识的输出明显减少，若有错误欢迎指正！

一、关于决策树的历史

二、关于一些知识记录

· 熵与信息增益

三、代码需要的数据分析

四、代码准备——基本函数

4.1 根构造函数

4.2 简单投票选定标签

4.3 判纯

4.4 选择最佳的条件属性列

4.5 计算条件熵

五、树的创建与分割属性集

5.1 属性集分割

5.2 树的构建与非根构造函数

六、通过决策树实现数据分类

七、数据测试

一、关于决策树的历史

最初的决策树算法是心理学家兼计算机科学家E.B.Hunt 1962年在研究人类的概念学习过程时提出的CLS（Concept Learning System），这个算法确立了决策树“分而治之”的学习策略。罗斯·昆兰在Hunt的指导下于1968年在美国华盛顿大学获得计算机博士学位，然后到悉尼大学任教。1978年他在学术假时到斯坦福大学访问，在一门研究生课程上要求写一个程序来学习出完备正确的规则，以判断国际象棋残局中一方是否会在两步棋后被将死。昆兰写了一个类似于CLS的程序。其中最重要的改进是引入了信息增益准则，后来他把这个工作整理出来在1979年发表，这就是ID3算法。

澳大利亚科学家罗斯·昆兰
(J.Ross Quinlan)

1986年昆兰应邀在Machine Learning创刊号上重新发表了ID3算法，掀起了决策树研究的热潮，短短几年间众多决策树算法问世，ID4，ID5等名字迅速被其他研究者提出的算法占用，昆兰只好将自己的ID3后续算法命名为C4.0(Classifer 4.0)，在此基础上进一步提出了著名的C4.5（只是对C4.0做了些小改进），将后续的商业化版本称为C5.0。

二、关于一些知识记录

来源于：决策树快问快答_闵帆的博客-CSDN博客

1.决策树是为决策而构建的树，它是人类知识的一种体现，因此具有天然的可解释性优势。我的理解是，它一种将选择全部枚举出来，并且组合一系列选择最终导向结构的一颗树形结构。比如下面这个买房放款决策：

2.决策的获得方式可以通过固有的知识准备，也可以通过经验得到，这个是我们生活的常识，我们永远不知道我们未来的道路上会面临什么抉择，所以我们可以通过提前了解可能的知识去提前未雨绸缪，或者结合我们曾经的“经验”，从而在面对抉择时做出“临时”的选择。

而我们机器学习中的学习，往往都是通过实际的数据中学习，而并非一个先前给定的一个大框架。比如，二叉查询树就像事先通过 “ 固有的知识准备 ” 构建出来的已知的决策树，然后在之后遇到需要查询的数据时直接“ 套用 ”就好了。而广义的机器学习中的决策树就像通过经验，在面对决策时临时进行构建“ 分支 ”，设计出针对当前问题的一种决策分类。

3.决策树算法的核心在于采用何种数据类型去进行分割，例如我们下面属性的weather数据集，我们确定一种条件类别（下图我们选择outlook条件类别），然后即可按照这种条件的分类分别选定当前根的若干孩子：

而这里进行属性选择的依据就是看这个条件是否可以将数据分得足够“ Pure ”（这个过程又可以说是“ 特征选择 ”，即选取对训练数据具有分类能力的特征），这里判断是否“ Pure ”需要基于某些启发式的规则：针对离散属性的信息增益、针对连续属性的信息增益率、基尼指数。

一个数据如果不够“ Pure ”，那么它就是相对应的“ Chaos ”（或说选择这个特征是没有分类能力的）。当我们按照某个标准分类的时候，每个类别都有比较独立的内聚时，最大可能实现了两个数据非A即B，那么这个分类就是“ Pure ”的。但是现实生活中有些东西我们很难说的很绝对，这就就导致我们可以没法一次就能非得我们所要求的“ Pure ”，所以只得再分。

一般来说，决策树的ID3算法选用的就是信息增益的方法去分割数据，它的效果非常优秀，能在绝大多数情况下获得叶子节点最少的、最小的决策树，所谓叶子节点最少也就表示最后我们的决策的针对性越强。所以我们下文会具体介绍信息增益这个方法。

4.决策树越小越好。树的分叉越少（if-else越少），这颗树在新的实例上方法的适用性就越强，就如图奥卡姆剃刀定理那般。若树的分叉非常庞大，结构极其复杂，那么这颗树就偏向过拟合，其适应性和扩展性就会变弱。面对这种情况我们会采用剪枝去让树尽可能地小，从而牺牲精度，提高泛化的特性。这个过程中我可以先构造一个足够庞大的决策树再剪枝（后剪枝），或者在构造过程中剪枝（前剪枝）

奥卡姆剃刀定律：“如无必要，勿增实体”，即“简单有效原理”。知识表达约简练，那么他的扩展性、延伸性就更强，能更好地结合各种问题从而有专门化的发展。

过拟合：随着训练过程的进行，模型复杂度不断变大，在训练集上的错误渐渐减小。可是在验证集上的错误却反而渐渐增大——即由于训练出来的网络过拟合了训练集，对训练集以外的数据却不work。

5.决策树是信息模型的构建，一般来说，对于一个数据集一旦够着了良好的数据，那个原始数据结构就可以不采用而直接使用学习好的模型。这种基于训练构建的模型往往非常花费时间，但是相对获得的收益是——测试会很快。

· 熵与信息增益

熵(Entropy)这个概念我们在中学的化学中早有耳闻，它代表着物质的混乱程度（气体>液体>固体），但是在信息领域略有差异。在信息论与概率统计中，熵表示随机变量不确定性的度量。可见虽然描述事物缩小了，但是依旧是对于混乱度的度量。

设$X$是一个取有限个值的离散随机变量，其概率分布为：\[P\left\{X=x_{i}\right\}=p_{i}, \quad i=1,2 \cdots, n\] 那么我们可以定义关于$X$的熵定义有\[H(X)=-\sum_{i=1}^{n} p_{i} \log p_{i}\] 这个熵的定义式只依赖于$X$的分布，而与$X$的取值无关，所以也可将X的熵记作$H(p)$

注意：在上式中的对数以2为底或以自然对数e为底对应了不同的单位：

对数以2为底的单位称作比特(Bit)
对数以e为底的单位称之为纳特(Nat)

更多细节不赘述，在这篇文章中有关于信息熵更多细节的描述，其中有关于二元信息熵的一个证明，简单来说，当随机变量只有0/1的二元取值时，有这样的分布\[P(X=1)=p, \quad P(X=0)=1-p, \quad 0 \leq p \leq 1\] 这是如果$p=1.0$或$p=0.0$那么熵最小，数据的不定性（混乱度）最小，反之当$p=0.5$时不定性（混乱度）最大。这个也好理解，若一个掷硬币的两面都是同一个花纹，那么最后结果出现什么样花纹的可能性恒定地稳定，完全不混乱；反之两面花纹不一样，最后结果就不再那么可靠稳定，各种可能性参半。这可以理解是信息邻域的“ 熵增 ”了。

另外再引入条件熵的概念，条件熵（conditional entropy）$H ( Y ∣ X )$表示在已知随机变量$X$的条件下随机变量$Y$的不确定性，定义为$X$给定条件下$Y$的条件概率分布的熵对$X$的数学期望：\[H(X \mid Y)=\sum_{i=1}^{n} p_{i} H\left(Y \mid X=x_{i}\right)\] 其中$p_{i}=P\left(X=x_{i}\right), i=1,2, \cdots, n$。至此，我们就可以提出信息增益的概念了：

信息增益(Information Gain)，即已知特征X的信息可以帮助Y的信息不确定性减少的程度。

特征$A$对训练数据集$D$的信息增益$g(D,A)$，定义为集合$D$的经验熵$H(D)$与特征$A$给定条件下$D$的经验条件熵$H(D∣A)$之差，即：\[g(D,A)=H(D)−H(D∣A)\] 这里的特征值$A$的不同，会对数据集$D$照成不同的影响，有的大有的小，造成的影响越大其信息增益也就越大，也就有更强的分类能力。所以在每次选取最合适的条件类（可以视为特征$A$）时我们都要计算这个条件类相对于训练集$D$的信息增益$g(D,A)$，并多次计算选取最大的那个作为我们的核心选择条件类！

三、代码需要的数据分析

    /**
	 * The data.
	 */
	Instances dataset;

	/**
	 * Is this dataset pure (only one label)?
	 */
	boolean pure;

	/**
	 * The number of classes. For binary classification it is 2.
	 */
	int numClasses;

	/**
	 * Available instances. Other instances do not belong this branch.
	 */
	int[] availableInstances;

	/**
	 * Available attributes. Other attributes have been selected in the path
	 * from the root.
	 */
	int[] availableAttributes;

数据集
纯度判定，用来权衡我们采用某些属性条件划分之后（或者没划分）数据是否是“ Pure ”的，对于Pure（纯了）的数据，为了控制树的大小（或者理论上没法再分），我们将停止分叉。这里我们通过判断一个数据内的标签差异程度来判断Pure，这里我们认为若一颗子树内只有一个标签了，那么就认为足够Pure了。
numClasses决断列的熟悉数目，因为play = {yes, no}，故值为2
availableInstances存储当前还可在分的数据集下标，其长度随着可分的数据行下标个数变化而变化
availableAttributes当前还可用的条件属性对应的下标集，其长度随着可分的条件属性的个数变化而变化（从这里可以窥见，我们把条件属性量化了）

    /**
	 * The selected attribute.
	 */
	int splitAttribute;

	/**
	 * The children nodes.
	 */
	ID3[] children;

	/**
	 * My label. Inner nodes also have a label. For example,  never appear in the training data, but 
	 * is valid in other cases.
	 */
	int label;

	/**
	 * The prediction, including queried and predicted labels.
	 */
	int[] predicts;

	/**
	 * Small block cannot be split further.
	 */
	static int smallBlockThreshold = 3;

选为当前进行分类目标的条件属性类（已量化，故用int）
孩子指针（引用）数组。对于非确定N叉数的孩子表示，统一采用在每个树结点中放入一个指针数组，分别指向其每个孩子。这个树状数据结构的基本内容，不赘述
label，记录结点最多的决策列属性（标签）下标。比如下图中，有5个yes，2个no，因为yes顺序放于第1个，因此下标为0，故label=0
predicts数组
smallBlockThreshold是一个最低的限度，若当前结点内的数据项低于或等于这个阈值就不再分，这是控制决策树大小的一个变量

本节点label = 0

四、代码准备——基本函数

4.1 根构造函数

	/**
	 ********************
	 * The constructor.
	 * 
	 * @param paraFilename
	 *            The given file.
	 ********************
	 */
	public ID3(String paraFilename) {
		dataset = null;
		try {
			FileReader fileReader = new FileReader(paraFilename);
			dataset = new Instances(fileReader);
			fileReader.close();
		} catch (Exception ee) {
			System.out.println("Cannot read the file: " + paraFilename + "\r\n" + ee);
			System.exit(0);
		} // Of try

		dataset.setClassIndex(dataset.numAttributes() - 1);
		numClasses = dataset.classAttribute().numValues();

		availableInstances = new int[dataset.numInstances()];
		for (int i = 0; i < availableInstances.length; i++) {
			availableInstances[i] = i;
		} // Of for i
		availableAttributes = new int[dataset.numAttributes() - 1];
		for (int i = 0; i < availableAttributes.length; i++) {
			availableAttributes[i] = i;
		} // Of for i

		// Initialize.
		children = null;
		// Determine the label by simple voting.
		label = getMajorityClass(availableInstances);
		// Determine whether or not it is pure.
		pure = pureJudge(availableInstances);
	}// Of the first constructor

依次为读取数据->设置决策类->读取决策类的属性个数与numClasses->初始化availableInstances->初始化availableAttributes->初始化后续属性

这里初始化里面用到两个函数，下面简单介绍下

4.2 简单投票选定标签

	/**
	 ********************************** 
	 * Compute the majority class of the given block for voting.
	 * 
	 * @param paraBlock
	 *            The block.
	 * @return The majority class.
	 ********************************** 
	 */
	public int getMajorityClass(int[] paraBlock) {
		int[] tempClassCounts = new int[dataset.numClasses()];
		for (int i = 0; i < paraBlock.length; i++) {
			tempClassCounts[(int) dataset.instance(paraBlock[i]).classValue()]++;
		} // Of for i

		int resultMajorityClass = -1;
		int tempMaxCount = -1;
		for (int i = 0; i < tempClassCounts.length; i++) {
			if (tempMaxCount < tempClassCounts[i]) {
				resultMajorityClass = i;
				tempMaxCount = tempClassCounts[i];
			} // Of if
		} // Of for i

		return resultMajorityClass;
	}// Of getMajorityClass

临时构造一个 “统计决策列所有可能类别” 的数组tempClassCounts ，然后投票选择最多决策类别。决策类别有一个我们熟悉的称为——标签（天气数据中的play决策的yes与no，这里就有两个标签yes/no）

4.3 判纯

	/**
	 ********************************** 
	 * Is the given block pure?
	 * 
	 * @param paraBlock
	 *            The block.
	 * @return True if pure.
	 ********************************** 
	 */
	public boolean pureJudge(int[] paraBlock) {
		pure = true;

		for (int i = 1; i < paraBlock.length; i++) {
			if (dataset.instance(paraBlock[i]).classValue() != dataset.instance(paraBlock[0])
					.classValue()) {
				pure = false;
				break;
			} // Of if
		} // Of for i

		return pure;
	}// Of pureJudge

“ 若一颗子树内只有一个标签了，那么就认为足够Pure了 ”这个是我刚刚介绍Pure变量用的语言，这里就是实现我这句话而已。变量全部可用数据行，看大家的标签是不是与第一个数据行的标签一致。

4.4 选择最佳的条件属性列

我最开始介绍决策树时提到了 “ 一般来说，决策树的ID3算法选用的就是信息增益的方法去分割数据 ”于是，这里代码便不难理解了，分别遍历所有条件属性，计算条件属性$A_i$对训练数据集$D$的最大信息增益$\underset{0 \leq i < n}{\max }{g(D,A_i)}$。

同时$g(D,A)=H(D)−H(D∣A)$，而$H(D)$是固定的，这样的话有下面的基本推导：\[\underset{0 \leq i < n}{\arg \max }{g(D,A_i)} = \underset{0 \leq i < n}{\arg \max } \left ( H(D)-H(D|A_{i}) \right ) = \underset{0 \leq i < n}{\arg \max }\left ( -H(D|A_{i}) \right ) = \underset{0 \leq i < n}{\arg \min } H(D|A_{i})\] 如此，下面的代码便不难理解了。

	/**
	 ********************************** 
	 * Select the best attribute.
	 * 
	 * @return The best attribute index.
	 ********************************** 
	 */
	public int selectBestAttribute() {
		splitAttribute = -1;
		double tempMinimalEntropy = 10000;
		double tempEntropy;
		for (int i = 0; i < availableAttributes.length; i++) {
			tempEntropy = conditionalEntropy(availableAttributes[i]);
			if (tempMinimalEntropy > tempEntropy) {
				tempMinimalEntropy = tempEntropy;
				splitAttribute = availableAttributes[i];
			} // Of if
		} // Of for i
		return splitAttribute;
	}// Of selectBestAttribute

4.5 计算条件熵

刚刚我们给出了条件熵的概率以及公式，这里为与代码对照，再度展示出公式：\[H(X \mid Y)=\sum_{i=1}^{n} p_{i} H\left(Y \mid X=x_{i}\right)\] 这里有$p_{i}=P\left(X=x_{i}\right), i=1,2, \cdots, n$。这里的$x_{i}$表示每个条件属性列环境下具有的类别数目，比如对于$X=temperature$，就有$\{x_{0} = hot,x_{1} = mild,x_{2} = cool\}$，而$p_i$就表示$x_i$在当前整列当中出现的概率，假如说数据集中有7行数据行，hot的天气有3天，那么自然$p_{i} = \frac{3}{7}$。而$H\left(Y \mid X=x_{i}\right)$直接套入熵的计算公式就好了。具体由下图这样的例子：

这个图当中，我们假定了$A_{1} = temperature$的情况下，$A_{1}$相对于有7行数据的数据集$D$的信息熵计算过程。这个图下面我们算了一系列的$H(Y|X=x_{i})$，最终加起来就好了。这里为了方便编写代码，我们建立了一个以 条件属性类型数 * 标签个数 的二维矩阵用来统计内部的$p_{i}$。这个内部的$p_{i}$不同于外部的$p_{i}$，内部这$p_{i}$的分母是条件属性中类别的总数，而分子是在这样限制下标签的个数。例如对于天气为hot的天气中，yes标签概率为$\frac{1}{3}$；no标签概率为$\frac{2}{3}$

（注：上图为简化，所有的$\log$计算都是以2为底的）

    /**
	 ********************************** 
	 * Compute the conditional entropy of an attribute.
	 * 
	 * @param paraAttribute
	 *            The given attribute.
	 * 
	 * @return The entropy.
	 ********************************** 
	 */
	public double conditionalEntropy(int paraAttribute) {
		// Step 1. Statistics.
		int tempNumClasses = dataset.numClasses();
		int tempNumValues = dataset.attribute(paraAttribute).numValues();
		int tempNumInstances = availableInstances.length;
		double[] tempValueCounts = new double[tempNumValues];
		double[][] tempCountMatrix = new double[tempNumValues][tempNumClasses];

		int tempClass, tempValue;
		for (int i = 0; i < tempNumInstances; i++) {
			tempClass = (int) dataset.instance(availableInstances[i]).classValue();
			tempValue = (int) dataset.instance(availableInstances[i]).value(paraAttribute);
			tempValueCounts[tempValue]++;
			tempCountMatrix[tempValue][tempClass]++;
		} // Of for i

		// Step 2.
		double resultEntropy = 0;
		double tempEntropy, tempFraction;
		for (int i = 0; i < tempNumValues; i++) {
			if (tempValueCounts[i] == 0) {
				continue;
			} // Of if
			tempEntropy = 0;
			for (int j = 0; j < tempNumClasses; j++) {
				tempFraction = tempCountMatrix[i][j] / tempValueCounts[i];
				if (tempFraction == 0) {
					continue;
				} // Of if
				tempEntropy += -tempFraction * Math.log(tempFraction);
			} // Of for j
			resultEntropy += tempValueCounts[i] / tempNumInstances * tempEntropy;
		} // Of for i

		return resultEntropy;
	}// Of conditionalEntropy

五、树的创建与分割属性集

5.1 属性集分割

	/**
	 ********************************** 
	 * Split the data according to the given attribute.
	 * 
	 * @return The blocks.
	 ********************************** 
	 */
	public int[][] splitData(int paraAttribute) {
		int tempNumValues = dataset.attribute(paraAttribute).numValues();
		// System.out.println("Dataset " + dataset + "\r\n");
		// System.out.println("Attribute " + paraAttribute + " has " +
		// tempNumValues + " values.\r\n");
		int[][] resultBlocks = new int[tempNumValues][];
		int[] tempSizes = new int[tempNumValues];

		// First scan to count the size of each block.
		int tempValue;
		for (int i = 0; i < availableInstances.length; i++) {
			tempValue = (int) dataset.instance(availableInstances[i]).value(paraAttribute);
			tempSizes[tempValue]++;
		} // Of for i

		// Allocate space.
		for (int i = 0; i < tempNumValues; i++) {
			resultBlocks[i] = new int[tempSizes[i]];
		} // Of for i

		// Second scan to fill.
		Arrays.fill(tempSizes, 0);
		for (int i = 0; i < availableInstances.length; i++) {
			tempValue = (int) dataset.instance(availableInstances[i]).value(paraAttribute);
			// Copy data.
			resultBlocks[tempValue][tempSizes[tempValue]] = availableInstances[i];
			tempSizes[tempValue]++;
		} // Of for i

		return resultBlocks;
	}// Of splitData

这个分割操作可以用一个图来很好诠释：

最开始我们的数据集是{0,1,2,3,4,5,6}，然后我们发现当前最好的分割属性是temperature，于是关注于temperature列，通过这一列不同，将数据分割为三块{{0,1,6},{2,5},{3,4}}。具体代码就不赘述了，如果理解有点困难的话，记住，这里tempSizes最开始的功能是统计每块的数目以方便后面给resultBlocks的二维分配空间；后面tempSizes之所以清空了是因为后面tempSize的作用是拷贝指针。

5.2 树的构建与非根构造函数

树的创建过程中我们使用了递归创建的思路，因此每个结点的创建代码我们都需要留有一个出口。结合以往DFS的经验，这个出口无疑在代码开头，具体来说，两个出口：

当前结点Pure吗？（当前结点的所有数据行的标签是否一致）
当前结点的数据行是否已经≤阈值了？

假如说，数据已经小于阈值了，不会再分割了，但是这个数据集内的数据集并不纯，即还有多个标签怎么办呢？这个时候就可以采用投票的策略权值最多的标签。这就是为什么我要构造 简单投票选定标签 函数getMajorityClass。

之后14~16行完成了最佳条件属性列的选取，同时分割除了这个属性类引导新数据集下标集合；同时分配的孩子指针（引用）数组空间（记住，这里只是指针空间）

18~26行代码是构造新的一个数组tempRemainingAttribute，这个数组其实就是把排除splitAttribute属性列的原属性数组availableAttribute拷贝了下来：

这么做的目的是希望遗传给下一代时不要选择这个已经选过的属性列

28~41行就是创建分配孩子的实际空间的代码，每个结点在分配实际空间时都会调用构造函数，同时也会因为构造函数参数调入的差异触发不同的构造函数。这里代码中巧妙利用了构造函数的重载，使得每个子节点的构造函数调用的方式与根节点略有差异。这个差异主要在于dataset、availableInstances、availableAttributes这三个参数的获取途径：

根节点的dataset是从读文件获取的；非根节点继承于其父亲
根节点availableInstances是用availableInstances[i]=i读取的全数据集的行下标；非根节点的availableInstances是来自其父亲分割的tempSubBlocks的一部分
根节点availableAttributes是用availableAttributes[i]=i读取的全数据集的条件属性列下标；非根节点的availableInstances是来自其父亲抛弃了某些列的原availableAttributes

这部在分孩子的时候要注意，按照条件属性splitAttribute进行分叉的时候，有时虽然splitAttribute属性的某些类并没有数据，但是我们还是会默认分与这个条件属性包含的类数目相同的指针数目。因此要格外注意空孩子问题（30~31行）

	/**
	 ********************************** 
	 * Build the tree recursively.
	 ********************************** 
	 */
	public void buildTree() {
		if (pureJudge(availableInstances)) {
			return;
		} // Of if
		if (availableInstances.length <= smallBlockThreshold) {
			return;
		} // Of if

		selectBestAttribute();
		int[][] tempSubBlocks = splitData(splitAttribute);
		children = new ID3[tempSubBlocks.length];

		// Construct the remaining attribute set.
		int[] tempRemainingAttributes = new int[availableAttributes.length - 1];
		for (int i = 0; i < availableAttributes.length; i++) {
			if (availableAttributes[i] < splitAttribute) {
				tempRemainingAttributes[i] = availableAttributes[i];
			} else if (availableAttributes[i] > splitAttribute) {
				tempRemainingAttributes[i - 1] = availableAttributes[i];
			} // Of if
		} // Of for i

		// Construct children.
		for (int i = 0; i < children.length; i++) {
			if ((tempSubBlocks[i] == null) || (tempSubBlocks[i].length == 0)) {
				children[i] = null;
				continue;
			} else {
				// System.out.println("Building children #" + i + " with
				// instances " + Arrays.toString(tempSubBlocks[i]));
				children[i] = new ID3(dataset, tempSubBlocks[i], tempRemainingAttributes);

				// Important code: do this recursively
				children[i].buildTree();
			} // Of if
		} // Of for i
	}// Of buildTree

	/**
	 ********************
	 * The constructor.
	 * 
	 * @param paraDataset
	 *            The given dataset.
	 ********************
	 */
	public ID3(Instances paraDataset, int[] paraAvailableInstances, int[] paraAvailableAttributes) {
		// Copy its reference instead of clone the availableInstances.
		dataset = paraDataset;
		availableInstances = paraAvailableInstances;
		availableAttributes = paraAvailableAttributes;

		// Initialize.
		children = null;
		// Determine the label by simple voting.
		label = getMajorityClass(availableInstances);
		// Determine whether or not it is pure.
		pure = pureJudge(availableInstances);
	}// Of the second constructor

为了更加生动展现，我这里列出了weather.arff数据的决策树的全过程（爆肝啊....(≧口≦)）

数据集：

@relation weather.symbolic

@attribute outlook {sunny, overcast, rainy}
@attribute temperature {hot, mild, cool}
@attribute humidity {high, normal}
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

@data
sunny,hot,high,FALSE,no
sunny,hot,high,TRUE,no
overcast,hot,high,FALSE,yes
rainy,mild,high,FALSE,yes
rainy,cool,normal,FALSE,yes
rainy,cool,normal,TRUE,no
overcast,cool,normal,TRUE,yes
sunny,mild,high,FALSE,no
sunny,cool,normal,FALSE,yes
rainy,mild,normal,FALSE,yes
sunny,mild,normal,TRUE,yes
overcast,mild,high,TRUE,yes
overcast,hot,normal,FALSE,yes
rainy,mild,high,TRUE,no

根分出通过length(outlook) = 3 从而分出了三颗子树，其中第二颗子树是纯的

第一颗子树的再分化情况：

第三颗子树的再分化情况：

六、通过决策树实现数据分类

我们这里采用的是基于自己的数据进行分类，因此准确度可以保证是1.0

因此代码主要还是示范怎么通过决策树去查看这个数据最终的归属，或者说这个数据的标签应该是什么。

classifiy( )函数的形参一个数据行，树的每层分别判断这个数据基于某个条件属性的某列，并且通过每次判断的结果，使得搜索逐步向下，直到遇到某个决策。

下面我将我刚刚得到的决策树简化，然后逐步分析这个数据行：

首先要判断当前结点是否有孩子，如果没有孩子的话说明结点已然是终端结点，那么通过简单投票选取可能的标签（投票已经通过构造函数内的接口运行，结构存放在label中）
若有孩子，那么取出这个结点当时在建树时选择的划分条件属性，因为后续的分叉是基于这个条件属性的，后续我们的分类数据要继续向下深入搜索的话，模仿原来的分叉路径是必须的。
若已经发现分叉，但是孩子是空的，这种情况往往是因为在分叉时已经给孩子分配了空间，但是在基于条件属性进行划分时这部分并没有类别记录。遇到这种情况默认为没有这个孩子，按照第1步方案执行。

	/**
	 ********************************** 
	 * Classify an instance.
	 * 
	 * @param paraInstance
	 *            The given instance.
	 * @return The prediction.
	 ********************************** 
	 */
	public int classify(Instance paraInstance) {
		if (children == null) {
			return label;
		} // Of if

		ID3 tempChild = children[(int) paraInstance.value(splitAttribute)];
		if (tempChild == null) {
			return label;
		} // Of if

		return tempChild.classify(paraInstance);
	}// Of classify

	/**
	 ********************************** 
	 * Test on a testing set.
	 * 
	 * @param paraDataset
	 *            The given testing data.
	 * @return The accuracy.
	 ********************************** 
	 */
	public double test(Instances paraDataset) {
		double tempCorrect = 0;
		for (int i = 0; i < paraDataset.numInstances(); i++) {
			if (classify(paraDataset.instance(i)) == (int) paraDataset.instance(i).classValue()) {
				tempCorrect++;
			} // Of i
		} // Of for i

		return tempCorrect / paraDataset.numInstances();
	}// Of test

七、数据测试

数据测试的方式是自我训练建立模型，同时自我核对相似度。因为测试数据源于同一个模型，所以识别率绝对是1.0。那么为了验证代码的正确性，我们就对这颗树进行一次前序遍历（DFS），最后将测试结果同我上面（花大量时间）画的图进行比对即可。

	/**
	 ********************************** 
	 * Test on the training set.
	 * 
	 * @return The accuracy.
	 ********************************** 
	 */
	public double selfTest() {
		return test(dataset);
	}// Of selfTest

	/**
	 ******************* 
	 * Overrides the method claimed in Object.
	 * 
	 * @return The tree structure.
	 ******************* 
	 */
	public String toString() {
		String resultString = "";
		String tempAttributeName = dataset.attribute(splitAttribute).name();
		if (children == null) {
			resultString += "class = " + label;
		} else {
			for (int i = 0; i < children.length; i++) {
				if (children[i] == null) {
					resultString += tempAttributeName + " = "
							+ dataset.attribute(splitAttribute).value(i) + "\n" + "class = " + label;
				} else {
					resultString += tempAttributeName + " = "
							+ dataset.attribute(splitAttribute).value(i) + "\n" + children[i]
							+ "\n";
				} // Of if
			} // Of for i
		} // Of if

		return resultString;
	}// Of toString

	/**
	 ************************* 
	 * Test this class.
	 * 
	 * @param args
	 *            Not used now.
	 ************************* 
	 */
	public static void id3Test() {
		ID3 tempID3 = new ID3("D:/Java DataSet/weather.arff");
		// ID3 tempID3 = new ID3("D:/data/mushroom.arff");
		ID3.smallBlockThreshold = 3;
		tempID3.buildTree();

		System.out.println("The tree is: \r\n" + tempID3);

		double tempAccuracy = tempID3.selfTest();
		System.out.println("The accuracy is: " + tempAccuracy);
	}// Of id3Test

	/**
	 ************************* 
	 * Test this class.
	 * 
	 * @param args
	 *            Not used now.
	 ************************* 
	 */
	public static void main(String[] args) {
		id3Test();
	}// Of main

测试数据

模拟草图

（今天的内容挺多的，今天写了一天了，结尾就不再过度分析了...后续关于决策树的更新也会基于这篇博客后方添加）

你可能感兴趣的:(Java机器学习笔记,决策树,机器学习,算法,java)

C++ 用ECC算法 Curve为EC_NIST_FP_521写个示例签名和验签。PCI认证小黄人软件经验分享 ssl 学习
以下是一个使用OpenSSL实现ECC(椭圆曲线密码)签名和验签的C++示例，曲线使用secp521r1（即NISTP-521）。这个程序：生成NISTP-521曲线的EC密钥。使用SHA-512进行哈希并签名数据。验证签名的正确性。编译：g++-oecc_signecc_sign.cpp-lssl-lcrypto运行：./ecc_sign你可以试试看，看看签名和验签是否成功！
Java基础7（解耦、引入工厂模式、代理设计模式、适配器设计模式、内部类）孤影恋长风 java
类设计的注意事项：类的设计主要是父类的设计子类最好不要继承一个已经完全实现的类，因为一旦发达向上转型，所调用的方法，一定是被子类覆盖过的方法，所以只会继承抽象类和接口。解耦耦合度是什么？两个对象之间相互依赖的程度，是衡量代码独立性的一个指标。软件开发追求高/低耦合度？软件开发追求低耦合度怎么才能降低代码的耦合度？降低代码的耦合度是一个非常重要的实践，它有助于提高代码的可维护性、可读性和可扩展性。引
LeetCode 21Merge Two Sorted Lists 合并两个排序链表 Java 我欲混吃与等死 LeetCode leetcode 链表 java
题目：将两个已排序的链表合并在一起。举例1：输入：list1=[1,2,4],list2=[1,3,4];输出：[1,1,2,3,4,4];举例2：输入：list1=[],list2=[];输出：[]举例3：输入：list1=[],list2=[0];输出：[0]解题思路：遍历两个链表，比较节点值来合并链表，当其中一个链表遍历完成时，将另一个链表剩余部分拼入新链表。/***Definitionfo
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
Spring Boot 项目 90% 存在这 15 个致命漏洞，你的代码在裸奔吗？风象南原创随笔 java spring boot 后端 web安全系统安全
文章首发公众号【风象南】SpringBoot作为一款广泛使用的Java开发框架，虽然为开发者提供了诸多便利，但也并非无懈可击，其安全漏洞问题不容忽视。本文将深入探讨SpringBoot常见的安全漏洞类型、产生原因以及相应的解决方案，帮助开发者更好地保障应用程序的安全。1.SQL注入漏洞漏洞描述：当应用程序使用用户输入的数据来构建SQL查询时，如果没有进行适当的过滤或转义，攻击者就可以通过构造恶意的
golang jwt挖坑 qiang527052 golang个人笔记 golang jwt
golangjwt使用golangjwt使用中遇到的一个坑，特此记录。具体描述：因为公司需要，现有架构jwt生成token的代码是java实现的，然后现在在golang中需要对此token进行解析。java用到的jar包：io.jsonwebtoken.jjwt0.9.0golang用到的库：github.com/dgrijalva/jwt-gojava生成token测试代码如下：publicst
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
每日一题一一Leetcode128. 最长连续序列 - 力扣 Blue.ztl 写写算法 leetcode 算法数据结构
每日一题一一Leetcode128.最长连续序列-力扣作者：blue时间：2025.3.14128.最长连续序列-力扣（LeetCode）本题的要求是：给定一个未排序的整数数组nums，找出其中数字连续的最长序列（不要求序列元素在原数组中连续）的长度。本题用排序加遍历的方法非常容易解决，但是算法的效率太低。本题正真的解题思路如下，首先，数组中是有可能出现重复的数字，但是重复的数字其实并不影响我们找
入门级带你实现一个安卓智能家居APP（2）kotlin版本一粒程序米 android kotlin 智能家居 WiFi 单片机
前言上一篇写过java版本的实现，这一篇就写一下kotlin版本的吧。效果展示本APP是通过tcp/ip协议与连了WiFi的单片机通信。其实除了主活动类和新建项目时有一丢丢不同，其他的都是一样的哈~第一步：你得会一点点kotlin基础，建议看一本书，是郭霖大神些的《第一行代码》第三版，里面除了安卓的基础教学，还有kotlin的。第二步：建议看一本书，是郭霖大神些的《第一行代码》，先入门安卓基础。不
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码强化学习曾小健2 大语言模型LLM 算法
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码机器之心2025年03月02日11:54北京选自GitHub作者：AndriyBurkov机器之心编译GRPO（GroupRelativePolicyOptimization）是DeepSeek-R1成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek用的GRPO占用大量内存？有人给出了些破解方法》。简单来说，GR
vscode设置console.log的快捷输出方式活宝小娜 vscode vscode ide 编辑器
vscode设置console.log的快捷输出方式编辑器中输入clg回车，可以直接输出console.log，并且同步输出变量的字符串和值1、打开vscode点击左上角的文件2、找到首选项3、点击用户代码配置4、在顶部输入框种输入javas，选择JavaScript选项5、打开里面注释的代码，写入如下内容{//Placeyoursnippetsforjavascripthere."Printto
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
DAY33 贪心算法Ⅱ Useee 贪心算法算法
122.买卖股票的最佳时机II-力扣（LeetCode）想到把整体利润分解为每天的利润，就豁然开朗了。classSolution{public:intmaxProfit(vector&prices){intresult=0;for(inti=1;i&nums){intcover=0;if(nums.size()==1)returntrue;for(inti=0;i=nums.size()-1)re
【Java se】程序逻辑控制 MABO-mb java 开发语言前端
一、顺序结构顺序结构比较简单，按照代码书写的顺序一行一行执行。System.out.println("aaa");System.out.println("bbb");System.out.println("ccc");//运行结果aaabbbccc如果调整代码的书写顺序,则执行顺序也发生变化System.out.println("aaa");System.out.println("ccc");Sy
springboot基于bs 架构的母婴用户商城全程服务管理系统(源码+lw+部署文档+讲解等) 源码哆哆V+ymhydo Java毕设优质源码 spring boot 架构后端
具体实现截图技术栈后端框架SpringBoot采用springboot作为后台的框架，java框架具有简化配置和开发的效率。Spring框架目前是很多java开发者的首选框架，Spring主要有两大功能，控制反转和面向切面的编程。控制反转（IOC）可以实现代码的依赖注入，减少代码的耦合性，大大提高了软件质量，面向切面编程（AOP）主要是应用动态代理的技术对代码逻辑进行分离，可以实现对代码的重用，适
Java对象的hashcode 阿黄学技术 Java基础 java 开发语言
在Java中，hashcode和equals方法是Object类的两个重要方法，它们在处理对象比较和哈希集合（如HashMap、HashSet）时起着关键作用。对于equals大部分Java程序员都不陌生，它通常是比较两个对象的内容(值)是否相等(==双等于比较对象的内存地址)，如果是Object中的equals方法默认就是比较内存地址(在没有被重写的情况下和==一样)。hashCode方法返回对
众数(masses)（c++）羊蜜不是羊 c++算法数据结构
题目描述由文件给出N个1到30000间无序数正整数，其中1≤N≤10000，同一个正整数可能会出现多次，出现次数最多的整数称为众数。求出它的众数及它出现的次数。输入描述输入文件第一行是正整数的个数N，第二行开始为N个正整数。输出描述输出文件有若干行，每行两个数，第1个是众数，第2个是众数出现的次数。（两个数之间由一个空格间隔，行末无多余空格）样例输入12242325372343输出2434来源算法
简单密码破解（c++）羊蜜不是羊 c++算法开发语言
题目描述密码是我们生活中非常重要的东东，我们的那么一点不能说的秘密就全靠它了。哇哈哈.接下来渊子要在密码之上再加一套密码，虽然简单但也安全。假设渊子原来一个BBS上的密码为zvbo941987,为了方便记忆，他通过一种算法把这个密码变换成YUANzi1987，这个密码是他的名字和出生年份，怎么忘都忘不了，而且可以明目张胆地放在显眼的地方而不被别人知道真正的密码。他是这么变换的，大家都知道手机上的字
HTML语言的贪心算法宇瞳月包罗万象 golang 开发语言后端
HTML语言的贪心算法：理论与实践引言在编程和算法研究中，贪心算法是一种广泛应用的解决问题的方法。它通过对每一阶段选择最优解的方式来构建整个问题的解决方案。贪心算法不一定能在所有情况下得到最优解，但在许多实际问题中，它能够提供一个足够好的近似解。本文将探讨贪心算法的基本概念、典型应用、优缺点，并结合HTML语言的特点，提出一些具体的实现示例和思考。一、贪心算法的基本概念贪心算法是一种求解最优化问题
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
《Hello 算法》火了！！！一本写给算法初学者的入门算法书籍遇码分享算法 hello hello算法算法书籍
曾经也放出豪言壮语，决心要刷遍力扣上的所有算法题目。然而现实就很快啪啪的打脸。不知道多少人和我有过一样的经历。在读到《Hello算法》的序中，作者靳宇栋给了我们一个“台阶”。随后就表达了针对我们的现状，他特地写了《Hello算法》这本书，代表广大算法初学者表示感激涕零。《Hello算法》为什么适合入门动画图解、一键运行的数据结构与算法教程全书采用动画图解，内容清晰易懂、学习曲线平滑，引导初学者探索
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
Matlab实现SSA-HKELM麻雀算法（SSA）优化混合核极限学习机多变量回归预测的详细项目实例 nantangyuxi MATLAB 算法 matlab 回归人工智能数据挖掘开发语言深度学习
目录Mstlsb实她TTS-HKFLM麻雀算法（TTS）优化混合核极限学习机多变量回归预测她详细项目实例1项目背景介绍...1项目目标她意义...1目标...1意义...2项目挑战及解决方案...2挑战...2解决方案...3项目特点她创新...3创新点...3特点...4项目应用领域...4应用领域...4项目效果预测图程序设计及代码示例...5项目模型架构...6数据预处理...6混合核极限学
Java中卫语句的设计思想而为. java 服务器开发语言
卫语句（GuardClauses）是一种通过提前返回简化条件嵌套、提升代码可读性的编程技巧。其核心思想是优先处理异常或边界情况，让主逻辑保持扁平化。以下是deepseek做出的设计思想详解：核心设计原则FailFast（快速失败）在函数入口处立即检查非法参数或无效状态，若不符合条件则提前终止（如返回、抛异常），避免后续无效操作。减少嵌套层级用卫语句替换多层if-else嵌套，将代码从“箭头型”结构
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
Java进阶面试速记登陆成功200 JAVA进阶开发语言 java
注解注解@Override类似一个标签,作用在方法上,表示此方法是从父类中重写而来注解是java中的标注方式,可以最用在类,方法,变量,参数成员上在编译期间,会被编译到字节码文件中,运行时通过反射机制获得注解内容,进行解析.内置注解java中内定好的注解例如@Override@Deprecated-标记过时方法。如果使用该方法，会报编译警告。@SuppressWarnings-指示编译器去忽略注解
群体智能优化算法-爱情进化算法 (Love Evolution Algorithm, LEA，含Matlab源代码） HR Zhou 算法 matlab 开发语言群体智能优化优化
摘要爱情进化算法（LEA）是一种基于心理学刺激-价值-角色理论（Stimulus-Value-RoleTheory）所提出的新型元启发式算法。该算法将“恋爱中的人”抽象为种群个体，通过对个体“幸福度（Happiness）”的定义和动态更新，模拟了从“相遇->价值交流->角色平衡”三个阶段不断逼近全局最优解的过程。LEA在高维连续优化与工程应用等场景下可实现对搜索空间的充分探索与精细开发。本文结合算
灰狼优化算法（Grey Wolf Optimization, GWO）及其 Python 代码追蜻蜓追累了算法 python github pycharm jupyter matlab numpy
灰狼优化算法（GreyWolfOptimization,GWO）是一种基于灰狼社会行为觅食过程而设计的优化算法。其基本原理是模拟灰狼群体中个体的协作和竞争行为，以迭代更新的方式寻找最优解。灰狼优化算法涉及三种灰狼的角色：alpha（α）、beta（β）和delta（δ），它们分别代表群体中的优势个体。算法包括初始化灰狼位置、计算适应度值、更新灰狼位置等步骤。以下是一个简单的Python示例代码，实
手写promise ,实现 then ,catch,finally,resolve,reject,all,allSettled 会飞的鱼先生前端 javascript 开发语言
完整代码原生Promise的用法1.Promise是JavaScript中用于处理异步操作的重要工具。它代表了一个异步操作的最终完成或失败，并且使异步方法可以像同步方法那样返回值。resolve：当异步操作成功时调用的函数，用于将Promise的状态改为fulfilled，并将结果值传递给后续的.then()方法。reject：当异步操作失败时调用的函数，用于将Promise的状态改为reject
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户

基于 Java 机器学习自学笔记 （第61-62天：ID3决策树）

一、关于决策树的历史

二、关于一些知识记录

· 熵与信息增益

三、代码需要的数据分析

四、代码准备——基本函数

4.1 根构造函数

4.2 简单投票选定标签

4.3 判纯

4.4 选择最佳的条件属性列

4.5 计算条件熵

五、树的创建与分割属性集

5.1 属性集分割

5.2 树的构建与非根构造函数

六、通过决策树实现数据分类

七、数据测试

你可能感兴趣的:(Java机器学习笔记,决策树,机器学习,算法,java)

基于 Java 机器学习自学笔记（第61-62天：ID3决策树）