菜到怀疑人生

机器学习——决策树（ID3、C4.5、CART）

以下均为个人理解，如有错误，欢迎指出。

文章目录

什么是决策树
分类树需要解决的问题
ID3决策树（分类树）

信息量
度量样本集合纯度的指标——信息熵
选择划分特征的指标——信息增益
ID3决策树的缺点

C4.5决策树（分类树）

选择划分特征的指标——增益率

CART决策树（分类树）

度量样本集合纯度的指标——基尼值
选择划分特征的指标——基尼指数
为什么选择基尼指数

分类树的构建过程
CART决策树（回归树）

算法流程
如何进行预测
个人理解

分类树如何处理连续值
防止过拟合

预剪枝
后剪枝

决策树的几何意义
决策树的优缺点
分类树与逻辑回归的比较

什么是决策树

引自维基百科我是链接

决策树（Decision tree）由一个决策图和可能的结果（包括资源成本和风险）组成，用来创建到达目标的规划。决策树建立并用来辅助决策，是一种特殊的树结构。决策树是一个利用像树一样的图形或决策模型的决策支持工具，包括随机事件结果，资源代价和实用性。它是一个算法显示的方法，决策树分为分类树和回归树

来直观的了解一下分类树，假设我们有一批瓜，我们用纹理、触感、根蒂、色泽来描述这批瓜，现在我们想通过这几个特征去判断一个瓜是不是好瓜，决策树通过某些标准不断将这些瓜进行划分，例如以纹理为划分标准，获得一批子集，每个子集在根据某个标准（例如触感）进行划分，划分到一定程度后，停止划分，由此可得一系列的子集，这些子集可被整理成树形结构，最后，我们给树的叶子节点进行标注，表明这个叶子节点属于什么类别。
上述过程的决策树长下面这样（来自周志华老师的《机器学习》）：

图一

分类树需要解决的问题

决策树其实就是不断选择某个特征将一个集合划分为若干个子集，使得子集的纯度比父集合更高，由此想法出发，在我看来，决策树需要解决两个问题

1、如何衡量一个样本集的纯度？
若一个样本集中包含的样本的类别单一，我们就说这个样本集纯度高，举个例子，现在有20个西瓜，每十个为一组：
A：6个好瓜，4个坏瓜
B：9个好瓜，1个坏瓜
明显可以看出，B组的纯度更高，我们需要一个函数来量化一个样本集的纯度，由此可通过数值的大小判断样本集的纯度

2、如何判断使用哪个特征作为划分标准？
懂得如何量化纯度以后，我们需要一个东西，来判断我们选择哪个特征进行划分可以得到最大程度的纯度提升

ID3决策树（分类树）

ID3决策树通过信息熵度量样本集的纯度，通过信息增益判断应该选择哪个特征作为划分标准。

信息量

信息量用来衡量信息的多少，信息量长这样(log的底数不一定为2，但是ID3选择的是2)：

$log_2(p(x))$

网上有许多直观的解释，但是总能想到该直观解释不能解释的例子，在此不解释信息量为什么长这样

度量样本集合纯度的指标——信息熵

记得是在《通信系统》一书中第一次接触信息熵，它长这样：

$Ent(D)=-\sum_{i=1}^n p(x_i)log_2(p(x_i))（式1.0）$

其中， $p(x_i)$ 表示事件 $x_i$ 出现的概率，一般情况下，概率是通过频数去接近的，而频数等于事件 $x_i$ 出现的次数除以总实验次数，信息熵可用来度量样本集合纯度，式1.0即为样本集合D的纯度，如果样本集合纯度越高， $E n t (D)$ 越趋近于0（直观来说，由于某个 $p(x_i)$ 越趋近于1，则有 $log_2(p(x_i))$ 趋近于0）

选择划分特征的指标——信息增益

为了得知划分前后纯度提升了多少，一个很自然的想法是用划分前的信息熵减去划分后每个子集信息熵的和，我们往更深处想，以图一来说，假设我们用触感作为划分标准，我们可以得到两个子集，一个子集的所有西瓜的触感为硬滑，另一个子集的所有西瓜的触感为软粘，我们是在已知每个子集触感的基础上计算这两个子集的信息熵的，类似于条件概率，也有条件熵存在，它长这样（图源自
维基百科）：

条件熵用于已知样本集合某些特征的基础上计算样本集合的纯度，上式中， $X$ 为选取的特征， $x$ 为该特征的取值， $p (y ∣ x)$ 表示已知 $X$ 特征取值为 $x$ 的情况下, $Y$ 取值为 $y$ 的概率，拿我们上面的例子来说，就是已知瓜的触感为硬滑（软粘）的情况下，是好（坏）瓜的概率，我们依然使用频数来粗略表示概率。

以下概念摘自周志华老师的《机器学习》

假定离散属性a有 $V$ 个可能的取值 ${a^1,a^2,....,a^V}$ ,若使用a来对样本集D进行划分，则会产生 $V$ 个分支节点，记第 $v$ 个分支的节点个数为 $D^v$ ，则划分后各子集条件熵之和为：

$\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v) （式1.1）$

则信息增益为：

$Gain(D,a)=Ent(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v) (式1.2)$

与信息熵一样，条件熵取值越小，表示该样本的纯度越高，故每次选择式1.2取值最大的属性作为划分标准

决定使用某个属性作为划分后，子集将不再考虑使用这个属性进行划分（因为同一子集的所有样本在该属性上的取值都相等）

ID3决策树的缺点

ID3决策树是最早提出的决策树算法，它有一个缺点——偏向于选择取值较多的属性作为划分节点，这是由式1.2的特性决定的，直观来说，对于取值多的属性，划分的子集数目必然较多，相较于取值较少的属性来说，部分子集含有的样本数量较少，这些子集的纯度较高，式1.2的取值会较小。举个例子，现在有6个样本，利用A特征进行划分，获得两个子集，样本个数均为3，假设两个子集的好瓜个数均为2，则其条件熵之和为： $\frac{2}{3}*log_2(\frac{3}{2})+\frac{1}{3}*log_23$ ，利用B特征进行划分，获得6个子集，每个子集样本个数均为1，毫无疑问，其条件熵之和为0，信息增益将最大

C4.5决策树（分类树）

为了克服ID3的缺点，C4.5决策树诞生了，其仍然使用信息熵度量样本集合纯度。

选择划分特征的指标——增益率

式1.2的一个特点是属性的取值越多，式1.2的取值越大，一个自然而然的想法是能不能对式1.2进行改造，添加一个系数，该系数满足当属性的取值越多，该系数的取值越小，当属性取值较少，该系数的取值较大，这样可以缓解ID3的选择偏好，基于这样的想法，C4.5对信息增益施加了一个系数（“惩罚”）：

$IV(a)={-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}}（式1.3）$

这个式子是样本在属性a上取值的信息墒，如果样本在属性a上的取值多，那么纯度就低，式1.3取值就大，如果取值少，那么纯度就高，式1.3取值就小，之所以选择这个式子，我觉得可能是一种折中的选择，对于取值较多的属性施加的"惩罚"大于取值较小的属性，决策树可能会更偏向于选择取值较小的属性，而式1.3可以较好的平衡这两种选择偏好

C4.5对式1.2进行改造得到增益率：

$Grain\_ratio(D,a)=\frac{Grain(D,a)}{IV(a)}（式1.4）$

虽然式1.3可以较好的平衡决策树的两种选择偏好，但式1.3仍然偏向于选择取值较少的属性，为了克服这个缺点，C4.5使用了一个启发式的算法，先从划分属性中选出信息增益高于平均水平的属性，接着选择信息增益率最高的属性作为划分标准

决定使用某个属性作为划分后，子集将不再考虑使用这个属性进行划分（因为同一子集的所有样本在该属性上的取值都相等）

CART决策树（分类树）

CART决策树可以做分类也可以做回归，和C4.5、ID3不同的是，它是一个二叉树

度量样本集合纯度的指标——基尼值

CART使用基妮值来度量样本集的纯度，对于有 $|\gamma|$ 个类别的样本集D来说，其基尼值如下：

$Gini(D)=1-\sum_{k=1}^{|\gamma|}p_k^2 （式1.5）$

样本集D中，类别 $i$ 的个数为k，样本集D含有n个样本，我们从样本集中随机抽取两个物品，同属于类别 $i$ 的概率为 $\frac{k}{n}*\frac{k-1}{n-1}$ ，当样本集D很大时， $\frac{k}{n}\approx\frac{k-1}{n-1}$ ，此时，基尼值反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率

选择划分特征的指标——基尼指数

使用 $D_1$ 表示样本集D上属性A取值为 $a$ 的样本集， $D_2$ 表示样本集D上属性A取值不为 $a$ 的样本集。此时，基尼指数取值为：

$Gini\_index(D,A,a)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)（式1.6）$

我们倾向于选择基尼指数小的属性的取值作为划分指标，决定使用某个属性某个取值作为划分指标后，例如选择A属性的取值a进行划分，将把一个集合划分为两个子集合，一个子集合中的所有样本在属性A上的取值均为a，一个子集合中的所有样本在属性A上的取值不为a

为什么选择基尼指数

无论是ID3，还是C4.5，它们均使用信息熵来度量样本的纯度，信息熵中存在log，在计算机中，log运算会花费较长时间，那么有没有什么方式减少这个开销呢？于是基尼指数横空出世，下图显示了信息增益的一半（熵之半）、Gini指数，分类误差率的图像：

可以看到，这三者非常接近（图像看上去有一段距离，但这段距离可能就是零点几的差距），并且信息增益的一半并不会影响最终的选择结果（由于所有属性的信息增益都减少了一半，相对大小没有发生改变），所以我们可以用基尼指数去近似表示信息增益，由此来看，CART与ID3在样本纯度和划分特征的公式选取上并没有太大差别，但是CART的计算速度会比ID3快（直观上来看，CART树似乎也会偏向于选择取值较多的属性）

分类树的构建过程

设当前节点集为D，候选划分属性集为A。递归构建分类树

函数TreeGenerate（D，A）
生成节点node
if D中所有样本属于同一类C
	将node节点作为叶子节点，类别标记为C
	return
if A为空集 or D对A的所有属性取值都相同
	将node节点作为叶子节点，类别标记为D中样本数最多的类
	return
从A中选择最优的划分属性a
for a的每一个值a_v do
	为node生成一个分支节点，令Dv表示D上a属性取值为a_v的样本子集
	if Dv为空
		将该分支节点标记为D中样本数最多的类
	else
		分支节点=TreeGenerate（Dv，A\{a}）

CART决策树（回归树）

CART回归树用于回归分析

算法流程

假设我们有一批样本，每组样本有n个自变量，1个因变量，第i个样本用
{ $x_{i1},x_{i2},.....,x_{in},y_i$ }表示
1、对于当前集合，选择一个特征 $j$ 以及其上的一个切分点s（s的选取可以是当前集合该特征上的每个取值），若样本的第j个特征取值小于s，则归为R1子类，否则，归为R2子类
2、计算两个子类的因变量方差，将方差相加，记为 $\delta_{js}$ ，步骤1、2可以使用 $(j,s,\delta_{js})$ 表示
3、重复步骤1、2，可得当前集合下，所有特征、所有切分点对应的方差，选择最小的方差，可获得该方差对应的特征 $k$ 和切分点 $s$ ，将样本集上特征k的取值小于 $s$ 的归为R1，大于等于 $s$ 的归为R2，我们用当前节点的所有样本的因变量的均值表示该节点的输出
4、对R1和R2重复步骤1~3，直到满足停止条件（例如当前所有节点的输出与真实值的均方误差小于某个特定的值）
一个例子：https://cethik.vip/2016/09/21/machineCAST/

如何进行预测

对于一个新的样本 $p$ ，即{ $x_{p1},x_{p2},.....,x_{pn},y_p$ }，从决策树的根部开始，假设当前决策树节点选择特征 $j$ 上的取值 $s$ 作为切分点，若 $x_{pj}$ 小于 $s$ ,则归为R1节点，否则，归为R2节点，在新的节点上不断进行上述步骤，直到到达叶子节点，叶子节点所有样本的因变量的均值即为样本 $p$ 的预测值

个人理解

CART回归树有点分类树的味道，每一次划分都是为了让处于同一节点的样本的因变量相较于其他划分来说更为紧密，所以我们用方差作为划分标准。直观来看，CART决策树试图通过不断的划分，使同一节点的样本的因变量越来越接近，最后可用样本均值来表示节点的输出

分类树如何处理连续值

由于连续属性的取值个数不在有限，因此，不能直接根据连续属性的可取值对节点划分，连续值离散化的技术有很多，这里介绍最简单的二分法
以下内容摘自周志华老师的《机器学习》

给定样本集D和连续属性a，设a在D上的 $v$ 个取值为 { $a^1,a^2,a^3,....,a^n$ },我们可以选定一个值t，小于t的归为一个子集，大于t的归为另一个子集，对于相邻取值 $a^i,a^{i+1}$ 来说，t在区间[ $a^i,a^{i+1}$ )任何一个地方的产生的划分结果都一致，因此，我们将相邻取值的中值构成的集合作为t的候选集，如下：

$T_a=\{\frac{(a^i+a^{i+1})}{2}|1\leq i \leq n-1\}$ (式1.4)

接下来的处理过程就和之前介绍的算法一样了

由于决策树只是要求划分后的集合纯度提升，因此使用二分法将连续值离散化并不会与决策树的初衷违背

防止过拟合

什么是决策树的过拟合

以下内容摘自周志华老师的《机器学习》
在决策树的学习过程中，节点划分过程不断进行，有时会导致决策树分支节点过多，这是就可能因训练样本学得“太好”了，以致于把训练集自己的一些特点当作所有数据都具有的一般性质

从概念上看，出现过拟合的原因是决策树分支过多，即分类过细。一个很自然的想法便是减少决策树的分支树，这就是决策树的剪枝，决策树的剪枝分为预剪枝和后剪枝

我们将样本集分为训练集和测试集

预剪枝

做法：首先选择划分属性，接着使用测试集测试节点划分前后的准确率，如果准确率没有提高，则停止划分，用该节点所含数目最多的类别标记该节点，否则，进行划分。
优点：使决策树的很多节点没有展开，减少训练时间和测试时间，减少了过拟合的风险
缺点：有些节点的当前划分虽然不能提升泛化性能，但是在此划分的基础上，后续的划分可能会提高决策树的泛化功能，使用预剪枝可能会造成欠拟合

后剪枝

做法：将决策树训练好后，自底向上的决定节点是否要进行划分，用测试集测试划分前后的准确率，如果精准度提高，则去除该节点的分支，用该节点所含数目最多的类别标记该节点，如果划分前后准确率没有变化，根据奥卡姆剃刀准则，我们依然会选择剪枝
优点：防止过拟合的同时防止欠拟合
缺点：训练时间长

决策树的几何意义

从上述算法的过程可以明显看出，决策树每次选择一个特征进行划分，即用平行于该特征对应的坐标轴的直线来划分训练集，对于二特征样本集来说，决策树训练的结果如下（图源自《机器学习》）：

决策树的优缺点

总结自维基百科

优点
1、不需要数据归一化
2、可以处理连续型、离散型数据
3、模型可解释
4、可以很好的处理大规模数据

缺点
1、训练一科最优决策树是完全NP问题，上述算法都是采用贪心策略构建
2、有些问题没法通过决策树很好解决，例如异或类问题，这类问题往往会让决策树变得很大

分类树与逻辑回归的比较

从几何意义上看，分类树比逻辑回归粒度更细，逻辑回归只是使用一条直线去划分数据集，而分类树使用多条平行与坐标轴的直线划分，粒度自然够细，一般情况下，如果数据集可以通过一条非平行于坐标轴的直线大致划分，则使用逻辑回归，否则，可以考虑使用分类树

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&