小雨姑娘

学习数据挖掘决策树ID3算法

一个月前的C语言程序设计课上学习了决策树ID3算法
然后自己用了两个多星期的时间开始用C语言实现，结果由于过程太过于复杂，写出来的东西就跟屎一样。
可能是自己对于这个算法理解的不够深刻，或者是在设计的时候没有构思好。
所以决定在这里写一写大概的构思然后再去用C实现。
这样可能会更加有效率一点。

决策树之ID3算法：

ID3算法的实质是检索哪个属性的分类能力更强，然后用拿个分类能力强的属性将数据分类，然后继续检索继续分类。

这样最后分完之后就会是一个树的结构。

分到最后的时候数据会到达一定的纯度。

之后你拿一个样本过来，顺着这个树往下找，找到它所属于的那一堆数据里，也就是叶节点上。

就能根据这一堆数据生和死的比例来对样本进行判断。

如何判断一个属性的分类能力？

根据香农的信息论。香农定义了一个名叫信息熵的东西，来说明一个系统的信息稳定程度。

一个系统的信息熵越小，那么用它分类出的系统就越稳定，它的分类能力就比较强。

信息熵的计算公式：(n1 / m) * log2(n1 / m) + (n2 / m) * log2(n2 / m) + ........... + (nn / m) * log2(nn / m)

具体的构建步骤：（以泰坦尼克号的数据为训练模型）

训练数据的结构：（第一列是生死标签）

//上一节课老师跟我说可以不用树的结构去构建数据结构，但是我实在不知道该怎么写，在他的口中用所谓字符数组的结构去做要比我这个简单很多。

//所以在这里还是采用我以前想的那个树的结构去做。

第一步，我们需要有一个函数来读取文件数据，我们选择一个二维数组去储存。
我觉得这个函数还是不错的。

int getData()//获取数据
{
	FILE *p;
	if (auto err = fopen_s(&p, "C:\\Users\\XueChuanyu\\Desktop\\test.txt", "r") == NULL)
	{
		printf("\nNo sucn a file");
	}

	int i = 0, k = 0;
	for (i = 0; i < DATASIZE; i++)
	{
		for (k = 0; k < 8; k++)
		{
			fscanf_s(p, "%lf", &data[i][k]);
			if (k == 3)
			{
				disperseAge(data[i][3], 15);
			}
			if (k == 6)
			{
				disperseAge(data[i][6], 70);
			}
		}
	}

	fclose(p);

	return 0;

}

但是我们有 很多数据都是连续的数据，所以要先进行离散化：
这个函数也还算能用的。

double disperseAge(double x, int different)// 根据离散间隔值离散化
{

	if (x < different)
	{
		x = 0;
		return x;
	}
	else
	{
		if (different <= x && x <= 2 * different)
		{
			x = 1.0;
			return x;
		}
		else
		{
			if (2 * different < x && x <= 3 * different)
			{
				x = 2.0;
				return x;
			}
			else
			{
				x = 3.0;
				return x;
			}
		}
	}
}

下一步我们需要有计算熵的函数，之前写的东西写之前还觉得写的挺好的，但是写完了了以后一个星期看根本看不懂了。
事实上我觉得是因为数据结构没想好就写，然后写了之后发现不合适，所以代码都看不懂了。
所以现在先来模拟一下该如何去做。
首先这个计算熵的函数必须具有通用性，也就是在每一次进行分类的时候都能用，所以这个检索也就变成了在某一个数据集里检索某个属性的熵。

所以这就要求我们必须在每个节点能够知道目前此节点的数据集是什么，所以我们的节点至少是这样的。

struct node
{
	int includeData[1000];
};

2017.04.10

今天上午上课的时候测试了一下自己之前写的那个在某个节点判断熵值的函数，发现还是可以用的，用那个训练集可以大概算出来在第一个节点的时候（也就是包含所有数据的节点）性别是最好的分类依据，虽然实现的效率和方法不是太好，但是毕竟也已经写出来了。自己也懒得改了，这样查找熵值的工作就完成了，下一步就只剩下根据训练集建树了。

（老师上课讲，当初没考虑到，现在自己试试用C去实现，确实很复杂，可能没个1000行写不出来，如果你不用各种库函数会相当痛苦）

然而我已经痛苦好几个星期了，已经麻木。

自己的队友已经放弃C，去用C++这种高级魔法去做了。

但我觉得我的代码还能再抢救一下。

下面贴出实现数据检索和熵值计算的函数。

检索在某一个节点（数据集）中某一属性下满足某个元素时另一属性中某元素的数量

这个函数是直接从之前的朴素贝叶斯算法中拉过来的，感觉用在这个模型上有点牵强了，感觉就是这个检索拖累了我。
这个函数的优势是可以检索单一属性中的元素，也可以同时检索两个属性，但是可能感觉有点难理解。

int checker(node *p, int typeSon, int typeDad, int sampleSon, int sampleDad)//在某节点中某属性下某属性的数量
{
	int result = 0, i = 0;
	for (i = 0; i < DATASIZE; i++)
	{
		if (p->typeNumber[i] != 0 && data[i][typeSon] == sampleSon && data[i][typeDad] == sampleDad)
		{
			result++;
		}
	}

	return result;
}

计算在某个节点（数据集）中某个特定属性的熵值

计算在某个节点的熵值，前面的这个检索某属性的种类，为的是能够提高程序的通用性。

类似于建立一个元素列表吧，告诉你这个属性下有什么元素。

但是实际上针对于这个数据其实可以完全用个一维数组。。。前面那部分弄麻烦了，但是也能用。

double entropy(node *p, int type)//计算某节点中某类别的熵值
{
	int property[DATASIZE][3] = {0};//property[某种属性][0：总数，1：对应存活，2：对应死亡]
							 //用于记录各属性及其对应值
	int dataSize = 0;
	int flag = 1;
	double entropy = 0;

	for (int i = 0; i < DATASIZE - 1; i++)//知道类型下属性的种类
	{
		if (flag && p->typeNumber[i] != 0)
		{
			int temp = data[i][type];
			property[temp][0]++;
			flag = 0; // 获得首个数据
		}
		else
		{
			continue;
		}

		if (p->typeNumber[i] != 0 && data[i][type] != data[i + 1][type])
		{
			int temp = data[i + 1][type];
			property[temp][0]++;//如果和前面的数据不同 再添加一个类型
		}
	}

	for (int i = 0; i < 8; i++)// 这个i有属性值的作用
	{
		if (property[i][0] != 0)
		{
			property[i][0] = checker(p, type, type, i, i);//每种属性的数量
			dataSize += property[i][0];
			property[i][1] = checker(p, type, 0, i, 1);//在此属性下生存的数量
			property[i][2] = checker(p, type, 0, i, 0);//在此属性下死亡的数量
		}
	}
	
	for (int i = 0; i < 8; i++)//计算熵
	{
		if (property[i][0] != 0)
		{
			entropy -= ((double)property[i][0] / dataSize) * (((double)property[i][1] / property[i][0]) * (log2((double)property[i][1] / property[i][0])));
		}
	}

	return entropy;

}

比较在某节点下所有属性的分类能力

一个小函数，没啥可说的。

int compare(node *p)//在某个节点下寻找最优划分类型
{
	int i = 0, result = 0;
	double lastType = 1, nowType = 1;

	for (i = 1; i < 8; i++)
	{
		nowType = entropy(p, i);
		
		if (nowType < lastType)
		{
			lastType = nowType;
			result = i;
		}
	}

	return result;
}

考虑了一下，作为一个树的结构，没个节点至少提供三个信息

1.该节点包含的数据集
2.记录该节点是以什么分类的
3.该节点上挂载的子节点

所以做了这样的节点

struct node
{
	int typeNumber[1000];
	double entropy;
	node *pNode[MAXTYPE];
};

如何建一棵树？

首先需要一个建立节点的函数：

函数需要得到的信息：

1. 当前所属的节点以及是否为空，以便知道下一步该如何建树。

2. 若当前节点的纯度到达一定程度结束函数。

2. 在当前节点下最优的分类属性（调用compare函数）。

3. 根据分类属性所拥有元素的数量调用建立节点的函数并创建节点（递归实现，该函数要返回一个指针，给上一个节点的指针数组）。

本来是打算用熵值作为结束树的条件的

但是如果用熵找不到好的衡量标准

所以写了这个计算纯度的函数

double getPureValue(node *p)
{
	int dead = 0, alive = 0;

	for (int i = 0; i != DATASIZE; i++)
	{
		if (p->typeNumber[i] == 1)
		{
			if (data[i][0] == 0)
			{
				dead++;
			}
			else
			{
				alive++;
			}
		}
	}
	return (dead > alive) ? (dead / static_cast(dead + alive)) : (alive / static_cast(dead + alive));

}

这里是前天写好的建树。。但是有些小问题。。

出现了这样的状况。。。跟平时野指针内存泄漏栈溢出的情况都不一样。。。暂时还没找到解决方法，感觉逻辑还是没什么问题的

如果哪位大神找到错误可以在下面评论。。感觉应该不是爆栈。。

贴下建树码

node* bulidTree(node *pSender, int bestType, int devideCondition)
{
	node *dadP = NULL;

	if (pSender == NULL)
	{
		dadP = new node;

		for (auto &i : dadP->typeNumber)
		{
			i = 1;
		}

		int bestType = compare(dadP);
		isUsed[bestType] = true;
		dadP->purity = getPureValue(dadP);

		int nodeAmount = typeAmount(dadP, bestType);

		for (int i = 0; i != nodeAmount; i++)
		{
			dadP->pNode[i] = bulidTree(dadP, bestType, i);
		}
		
	}
	else
	{
		dadP = pSender;
		
		if (dadP->purity > 0.75)
		{
			return NULL;
		}
		else
		{
			node *sonP = new node;
			
			for (int i = 0; i != DATASIZE; i++)
			{
				if (data[i][bestType] == devideCondition && dadP->typeNumber[i] != 0)
				{
					sonP->typeNumber[i] = 1;
				}
				else
				{
					sonP->typeNumber[i] = 0;
				}
			}

			int bestestType = compare(sonP);
			isUsed[bestestType] = true;
			sonP->purity = getPureValue(sonP);

			int nodeAmount = typeAmount(sonP, bestestType);

			for (int i = 0; i != nodeAmount; i++)
			{
				sonP->pNode[i] = bulidTree(sonP, bestestType, i);
			}

			delete dadP;
			return sonP;

		}

	}
}

之前写的那个东西，在调试的时候出现了不停在两个属性循环分类的情况

后来发现ID3算法是不能重复用某个属性的，原理如下

所以这个还是未完成吧

不过暂时这个就到这一段落了

下面要学习OpenCV和python

这个以后有时间再慢慢研究了

2017/4/24

建树的问题解决了

主要
之前出现了两个问题

1.之前在函数开始的时候创建的一个指针，把那个指针删掉改为用后面直接用new创建node对象，就没有了已触发了一个断点的东西

分析可能是以前的那种创建指针的方式，在后来用到了没有开辟空间的指针，也就是用到了一个空指针的情况

2.出现的在建树过程中，纯度不断提高，到最后突然变成66。6%的情况。

原因是这个ID3选用不同分类属性的时候是不能重复使用分类属性的，所以在后来分类的属性肯定越来越差（好的都被用完了）

所以用一个超差的分类属性对较少的数据进行分类，结果就是出现这种纯度下降的情况，解决办法就是设置一个根据树的深度停止的判断

新的代码贴到如下：

node* bulidTree(node *pSender, int bestType, int devideCondition)
{
	if (pSender == NULL)
	{
		node *dadP = new node;

		for (auto &i : dadP->typeNumber)
		{
			i = 1;
		}

		int bestType = compare(dadP);
		isUsed[bestType] = true;
		dadP->purity = getPureValue(dadP);
		dadP->deep = 0;
		int nodeAmount = typeAmount(dadP, bestType);

		for (int i = 0; i != nodeAmount; i++)
		{
			dadP->pNode[i] = bulidTree(dadP, bestType, i);
		}
		
	}
	else
	{
		node *dadP = pSender;
		
		if (dadP->purity > 0.8 || dadP->deep >= 3)
		{
			return NULL;
		}
		else
		{
			node *sonP = new node;
			sonP->deep = dadP->deep + 1;
			
			for (int i = 0; i != DATASIZE; i++)
			{
				if (data[i][bestType] == devideCondition && dadP->typeNumber[i] != 0)
				{
					sonP->typeNumber[i] = 1;
				}
				else
				{
					sonP->typeNumber[i] = 0;
				}
			}

			int bestestType = compare(sonP);
			isUsed[bestestType] = true;
			sonP->purity = getPureValue(sonP);

			int nodeAmount = typeAmount(sonP, bestestType);

			for (int i = 0; i != nodeAmount; i++)
			{
				sonP->pNode[i] = bulidTree(sonP, bestestType, i);
			}

			return sonP;

		}

	}
}

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
BOOT_KEY按键（学习笔记）小高Baby@ 学习笔记
先来让我们了解一下GPIO是什么吧，它在单片机中也有很重要的作用，接下来我们来看看吧。esp32C3是QFN32封装（一种集成电路（IC）封装类型），GPIO引脚一共有22个，从GPIO-0到GPIO-21。从理论上来说，所有的IO引脚都可以复用为任何外设功能，但有些引脚用作连接芯片内部FLASH或者外部FLASH功能时，官方不建议用作其它用途。esp32c3的GPIO，可以用作输入、输出，可以配
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
Kotlin学习笔记 qq_26907861
1.Val和Varval:用于声明不可变量,不可变是指引用不可变;var:用于声明可变的变量;packagehello//可选的包头funmain(args:Array){//包级可见的函数，接受一个字符串数组作为参数vala="不可变的变量"//不可变的变量varn=2//可变println(a)println(n)}2.fun函数Kotlin中的函数可以这样声明:fun函数名(参数列表):返回
WPF学习笔记（2）——x名称空间详解上幽冥宇少 WPF C#WPF学习笔记初学者 C#VS2013
先说一些基本的，.NET的模块称为程序集（Assembly）。一般情况下，用VS创建的是解决方案（Solution），一个解决方案就是一个完整的程序。解决方案中包含若干个项目（Project），每个项目是可以独立编译的，他的编译结果是一个程序集。常见的程序集是以.exe为扩展名的可执行程序或者是以.dll为扩展名的动态链接库，大多数情况下，我们说“引用其他程序集”的时候，说的是动态链接库。因为.N
初学者的指针学习笔记（1）近津薪荼学习笔记
1.内存和地址1.1内存像学生宿舍一样，被分成许多个房间，每个房间都有自己的房号，每个房间能住8个学生内存被分成许多个单元（小为1Byte），每个单元都有自己的编号，每个单元里能住8个小比特（bite）c语言中，指针就是该单元内存的编号也就是地址，我们可以通过指针快速找到我们要访问的内存1.2编址计算机中的内存编址，是通过硬件设计来完成的，也就是说他被做出来的时候各个内存单元的地址就已经确定了。计
初学者关于自定义类型结构体的学习笔记近津薪荼学习笔记数据结构
1.结构的特殊声明//匿名结构体类型struct{inta;charb;floatc;}x;struct{inta;charb;floatc;}a[20],*p;p=&x;不可取，本质上是两个不同类型的结构体上述代码的声明方式，该结构体类型，如果不重命名的话，只能用一次（声明时顺便创建变量）2.结构体的自引用structNode{intdata;structNodenext;};上述代码，结构体中
Xilinx系FPGA学习笔记（三）Vivado的仿真及ILA使用贾saisai FPGA学习 fpga开发学习笔记
系列文章目录文章目录系列文章目录前言仿真验证（类似modelsim）ILA在线调试工具添加ILAILA的例化ILA的使用前言接着学习vivado的使用方法仿真验证（类似modelsim）首先类似添加.v文件的方法，在File-AddSource中选择Addorcreatesimulationsources或者直接在Sources里面选就行然后就编写testbench，类似之前介绍的modelsim
学习笔记day1
Linux基础Linux到底是什么？Linux主要指的是内核（主机中的CPU）,它也是我们系统的大脑Ubuntu跟Linux的关系：Ubuntu是Linux系统的一个分支。为什么要选⽤Linux?开源的，用户可以根据自己的喜好和需求来定制系统。性免费，企业可以减少开发成本。安全性可移植性高Linux跟我们⽇常使⽤的windows的区别？操作习惯不⼀样：windows是以图形交互为主；Linux操作
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
Text2Reward学习笔记
1.提示词请问，“glew”是一个RL工程师常用的工具库吗？请问,thiscodebase主要是做什么用的呀？1.1解释代码是否可以请您根据thiscodebase的主要功能，参考PyTorch的文档格式和文档风格，使用Markdown格式为选中的代码行编写一段相应的文档说明呢？2.项目环境配置2.1新建环境[official]2.1.1Featurizecondacreate-p~/work/d
pandas学习笔记 kara_486 pandas 学习笔记
pandas是python中一个性能强大的数据处理库，能进行复杂的数据处理。pandas的数据结构分为三种类型，分别为series,DataFrame和index,对于初学者而言，series和DataFrame这两种结构最为重要。下面作者将重点介绍series和DataFrame这两部分。series的介绍series按照作者的目前的理解是pandas库中最基础的组成部分，seriers是由索引
英语学习笔记2.0 飞升不如收破烂~ 学习笔记
✅正确表达：“HowlonghaveyoubeenteachingEnglish?”或者更简单地问：“HowlongdoyouteachEnglish?”（这个句子语法对，但用在现在习惯性的行为上）用法说明：如果你想问：️“你教英语多久了？”✅用现在完成时（表示一段持续的时间）：HowlonghaveyoubeenteachingEnglish?️你可以这样试试新的句子：Howlonghaveyo
C语言笔记
学习笔记仅供参考基础介绍程序就是一组计算机能识别的指令，计算机的一切操作都是由程序控制的。人和计算机都能识别的语言就是就是计算机语言，计算机工作是基于二进制的。计算机能直接识别的二进制代码就是机器指令，机器指令的集合就是机器语言。机器语言与人们习惯使用的语言差别太大，所以人们创造出了符号语言，计算机不能直接识别符号语言的指令，需要汇编程序软件将符号语言指令转成机器指令(二进制代码)。机器语言与汇编
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
黑马程序员_学习笔记2——wpf计算器马林雷
WPF学习笔记（27）科学计算器三千道应用题 C#实例 WPF学习笔记 wpf
科学计算器1.前端界面2.功能代码1.前端界面2.功能代码usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Windows;usingSystem.Windows.Controls;usingSystem.Wind
【机器学习笔记Ⅰ】10 特征工程
特征工程（FeatureEngineering）详解特征工程是机器学习和数据科学中的核心环节，旨在通过对原始数据的转换、组合和提取，构建更适合模型的高质量特征。其质量直接决定模型性能上限（“数据和特征决定了模型的上限，而算法只是逼近这个上限”）。1.特征工程的核心目标提升模型性能：增强特征与目标变量的相关性。降低计算成本：减少冗余特征，加速训练。改善泛化能力：避免过拟合，提高鲁棒性。2.特征工程的
Java基础学习笔记2 qichi333 学习笔记 java eclipse
今天是Java基础学习第二天，加油！！！下面是我今天记的一些笔记。（有点懒惰了，爬虫今天没学，因为赖床了(bushi)，但我会勤奋起来的^_^，一定一定！明天不能偷懒了天！！）一、运算符例子：inta=10;intb=20;intc=a+b;其中，“+”是运算符，且是算术运算符；“a+b”是表达式，且是算术表达式。1.算术运算符例1：publicclassdemo3{publicstaticvoi
SystemVerilog LRM 学习笔记 -- clocking块
1clocking...endclocking块clocking块是SV新feature，主要是为了更好解决testbench和DUT之间的timing和同步建模的问题，可以使user基于clockcycle在更高的抽象层次上写testbench(如“##3”，表示三个clock)。clocking只能在module/interface/checker/program中声明，不能在function
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

学习数据挖掘决策树ID3算法

决策树之ID3算法：

具体的构建步骤：（以泰坦尼克号的数据为训练模型）

2017.04.10

如何建一棵树？

你可能感兴趣的:(DataMining学习笔记)