tt丫

决策树详解

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。

一、数学基础

1、信息熵

2、信息增益

二、决策树的组成

1、决策节点

2、叶子节点

3、决策树的深度

三、决策树的建立(基于信息增益）

1、计算根节点的信息熵

2、计算属性的信息增益

3、接下来我们继续重复1，2的做法继续寻找合适的属性节点

四、决策树的另一划分标准——增益率（C4.5决策树算法）

1、引入原因

2、定义

3、例子

4、注意点

五、决策树的另一划分标准——基尼指数（CART决策树）

1、定义

2、决策树建立方法（分类回归均可用）

六、剪枝处理

1、提出原因

2、剪枝与其处理基本策略

3、预剪枝

4、后剪枝

七、连续与缺失值

1、连续值处理

2、缺失值处理

八、多变量决策树

九、python实现

一、数学基础

1、信息熵

（1）基本定义

假设样本集合D共有N类，第k类样本所占比例为 $p_{k}$ ，则D的信息熵为： $H(D) = -\sum_{k=1}^{N}p_{k}log_{2} p_{k}$

信息熵描述的是事件在结果出来之前对可能产生的信息量的期望，描述的是不确定性。

信息熵越大，不确定性越大。H(D)的值越小，则D的纯度越高。

注：

（1）计算信息熵时约定 : 如果 p = 0,则 $p\log_{2}p$ = 0

（2）Ent(D)的最小值是0,最大值是 $log_{2}N$

如下图所示——二元信源熵函数（）：

（2）条件熵

$H(Y|X)=\sum_{i}P(X=i)H(Y|X=i)$

（3）有关定律

若X，Y相互独立，

H(Y|Y)=0

2、信息增益

信息增益是一个统计量，用来描述一个属性区分数据样本的能力。信息增益越大，那么决策树就会越简洁。这里信息增益的程度用信息熵的变化程度来衡量。公式如下：

$IG(Y|X)=H(Y)-H(Y|X)\geqslant 0$

二、决策树的组成

1、决策节点

通过条件判断而进行分支选择的节点。如：将某个样本中的属性值(特征值)与决策节点上的值进行比较，从而判断它的流向。

2、叶子节点

没有子节点的节点，表示最终的决策结果。

3、决策树的深度

所有节点的最大层次数。

决策树具有一定的层次结构，根节点的层次数定为0，从下面开始每一层子节点层次数+1。

三、决策树的建立(基于信息增益）

咱们还是以一个例子来吧，方便些

根据以下信息构建一棵预测是否贷款的决策树。我们可以看到有4个影响因素：职业，年龄，收入和学历。

1、计算根节点的信息熵

“是”占 $\frac{2}{3}$ ；“否”占 $\frac{1}{3}$

$H(D)= -(\frac{2}{3}log_{2}\frac{2}{3}+\frac{1}{3}log_{2}\frac{1}{3})\approx 0.933$

2、计算属性的信息增益

（1）职业

H("职业") = $-\frac{1}{3}(\frac{1}{2}log_{2}\frac{1}{2}+\frac{1}{2}log_{2}\frac{1}{2})-\frac{2}{3}(\frac{3}{4}log_{2}\frac{3}{4}+\frac{1}{4}log_{2}\frac{1}{4}) \approx 0.867$

IG(D,"职业") = H(D) - H("职业") = 0.066

（2）年龄（以35岁为界）

H("年龄") = $-2\times \frac{1}{2}(\frac{2}{3}log_{2}\frac{2}{3}+\frac{1}{3}log_{2}\frac{1}{3})\approx 0.933$

IG(D,"年龄") = H(D) - H("年龄") = 0

（3）收入（以10000为界）

H("收入") = $-\frac{2}{3}(\frac{1}{2}log_{2}\frac{1}{2}+\frac{1}{2}log_{2}\frac{1}{2})-\frac{1}{3}(1log_{2}1+0log_{2}0)$ $= -\frac{2}{3}(\frac{1}{2}log_{2}\frac{1}{2}+\frac{1}{2}log_{2}\frac{1}{2})\approx 0.667$

IG(D,"收入") = H(D) - H("收入") = 0.266

（4）学历（以高中为界）

H("学历") = $- \frac{2}{3}(\frac{1}{2}log_{2}\frac{1}{2}+\frac{1}{2}log_{2}\frac{1}{2})\approx 0.667$

IG(D,"学历") = H(D) - H("学历") = 0.266

选择信息增益最大的属性作为划分属性，即选择“收入”

3、接下来我们继续重复1，2的做法继续寻找合适的属性节点

确定第二个属性节点

步骤一：“是”占 0.5；“否”占 0.5，因此H=1

步骤二：

很显然，当学历在高中及以上时，是否贷款为否；当学历在高中以下时，是否贷款为是。

所以不用再算了，直接得出

这样决策树就建好了。

四、决策树的另一划分标准——增益率（C4.5决策树算法）

1、引入原因

还是以上面的例子，我们可以看到“学历”一栏如果我们没有进行分区，则会产生6个分支，每个分支节点仅包含一个样本。但这样的决策树不具有泛化能力，无法对新样本进行有效预测。

信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，有些决策树算法不以信息增益作为最优划分属性的选择依据，而选择增益率。

2、定义

$IG\_ratio(D,a) = \frac{IG(D,a)}{IV(a)}$

其中 $IV(a)=-\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}log_{2}\frac{|D^{v}|}{|D|}$ 被称为属性a的“固有值”

属性a的取值有 $\left\{a^{1}, a^{2}, \ldots, a^{V}\right\}$ ，其中 $D^{v}$ 表示D中所有在属性a上取值为 $a^{v}$ 的样本集合。

属性a的可能取值数目越多（V越大），IV(a)的值通常会更大。

3、例子

拿上面的例子——计算“收入”的信息增益率

上面已经求得

H("收入") = $-\frac{2}{3}(\frac{1}{2}log_{2}\frac{1}{2}+\frac{1}{2}log_{2}\frac{1}{2})-\frac{1}{3}(1log_{2}1+0log_{2}0)$ $= -\frac{2}{3}(\frac{1}{2}log_{2}\frac{1}{2}+\frac{1}{2}log_{2}\frac{1}{2})\approx 0.667$

IG(D,"收入") = H(D) - H("收入") = 0.266

IV("收入") = $-(\frac{2}{3}log_{2}\frac{2}{3}+\frac{1}{3}log_{2}\frac{1}{3})\approx 0.933$

$IG\_ratio(D,a) = \frac{0.266}{0.933}=0.285$

4、注意点

增益率准则对可取值数目较少的属性有所偏好。

因此基于增益率的决策树建立方法：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的（而非直接用增益率作为比对标准）。

五、决策树的另一划分标准——基尼指数（CART决策树）

1、定义

（1）基尼值

$Gini(D) = 1-\sum_{k=1}^{N}p_{k}^{2}$

Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。

Gini(D)越小，数据集D的纯度越高，不确定性越小。

（2）基尼指数

$Gini\_index(D,a) =\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Gini(D^{v})$

2、决策树建立方法（分类回归均可用）

在侯选属性集合中，选择那个是的划分后基尼指数最小的属性为最优划分属性。

六、剪枝处理

1、提出原因

决策树分支可能过多，以致于把训练集自身的一些特征当作所有数据都具有的一般性质而导致过拟合。决策树越复杂，过拟合的程度会越高。因此我们主动去掉一些分支来降低过拟合的风险。

2、剪枝与其处理基本策略

（1）剪枝：剪枝是指将一颗子树的子节点全部删掉，根节点作为叶子节点。

（2）基本策略：预剪枝和后剪枝

3、预剪枝

（1）做法

在决策树生成的过程中，每个决策节点原本是按照信息增益、信息增益率或者基尼指数等纯度指标，按照值越大，优先级越高来排布节点。由于预剪枝操作，所以对每个节点在划分之前要对节点进行是否剪枝判断，即：使用验证集按照该节点的划分规则得出结果。若验证集精度提升，则不进行裁剪，划分得以确定；若验证集精度不变或者下降，则进行裁剪，并将当前节点标记为叶子节点。
（2）具体例子

比如上述例子中的“学历”

我们选取第5个样本为验证集

若不划分：验证集精度为50%（一半是，一半否）；若划分：验证集精度100%。

所以需要划分，不剪枝。

（3）优缺点

优点：预剪枝使得决策树很多相关性不大的分支都没有展开，这不仅仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销。

缺点：有些分支的当前划分虽不能提升泛化能力，甚至可能导致泛化能力暂时下降，但是在其基础上进行的后续划分却有可能提高性能。预剪枝基于“贪心”本质禁止这些分支展开，给预剪枝决策树带来了欠拟合的风险。

4、后剪枝

（1）做法

已经通过训练集生成一颗决策树，然后自底向上地对决策节点(非叶子结点)用测试集进行考察，若将该节点对应的子树替换为叶子节点能提升验证集的精确度（这个的算法与预剪枝类似），则将该子树替换成叶子节点，该决策树泛化能力提升。

（2）优缺点

优点：后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下，后剪枝决策树的欠拟合风险很小，泛化能力往往优于预剪枝决策树。

缺点：后剪枝过程是在生成完决策树之后进行的，并且要自底向上地对树中的所有决策节点进行逐一考察，因此其训练时间开销比未剪枝的决策树和预剪枝决策树都要大得多。

七、连续与缺失值

1、连续值处理

（1）提出原因

看看我们上面的例子，有些属性取值是离散的，有些是连续的。连续属性的可取值数目不是有限的，所以不能直接根据连续属性的可取值来对节点进行划分。

（2）做法——连续属性离散化技术

最简单的方法是二分法。

提取划分节点的所有可能

给定样本集D和连续属性a，假设a在D中出现了n个不同的取值，将这些值从小到大进行排序，记为 $\left\{a^{1}, a^{2}, \ldots, a^{n}\right\}$ 。划分点选取公式为： $\mathrm{T}_{\mathrm{a}}=\left\{\frac{\mathrm{a}^{i}+\mathrm{a}^{\mathrm{i}+1}}{2} \mid 1 \leqslant \mathrm{i} \leqslant \mathrm{n}-1\right\}$ （一共有n-1个划分点）。

选择最佳划分节点

拥有n-1个划分节点后，需要选取最佳划分点，则又可以像离散属性那样考察这些划分点。比如说计算信息增益，哪个划分节点得到的信息增益最大就选哪个。

2、缺失值处理

（1）提出原因

在样本获得的过程中，难免会因某些原因致使最后拿到的样本集出现某些属性数据的缺失。

（2）做法

当缺失的数据非常少时，一般直接舍弃掉那些缺失的数据；而当缺失的数据较多时，简单舍弃则是对样本的极大浪费，则按照一定的方法进行处理。

当缺失的数据较多时：

对信息增益的计算公式进行修改：

$\begin{aligned} \operatorname{IG}(\mathrm{D}, \mathrm{a}) &=\rho \times \operatorname{IG}(\tilde{\mathrm{D}}, \mathrm{a}) &=\rho \times\left(\operatorname{H}(\tilde{\mathrm{D}})-\sum_{\mathrm{i}=1}^{\mathrm{k}} \frac{\left|\tilde{\omega}_{\mathrm{i}}\right|}{|\tilde{\omega}|} \operatorname{H}\left(\tilde{\mathrm{D}}_{\mathrm{i}}\right)\right) \end{aligned}$

其中：

D表示整个样本， $\widetilde{D}$ 表示不包含缺失值的样本；

ρ 表示完整度，为不含缺失值的样本数/总样本数；

k为该属性的取值数目；

$\frac{|\widetilde{w_{i}}|}{|\widetilde{w}|}$ 类似于以前公式中的 $\frac{|D_{i}|}{|D|}$ ，指在该属性值在所有不缺失样本中所占的比例。比如说有一个“色泽”属性，这个属性有2个取值：黑和白，共有10个样例，含缺失值的有3个。不含缺失值的样例中黑的有5个，白的有2个。那么黑的取值为 $\frac{5}{7}$ ；白的为 $\frac{2}{7}$ 。

$\operatorname{H}(\tilde{\mathrm{D}})=-\sum_{\mathrm{i}=1}^{\mathrm{k}} \tilde{\mathrm{p}}_{\mathrm{i}} \log _{2} \tilde{\mathrm{p}}_{\mathrm{i}}$

八、多变量决策树

前面研究的都是单变量决策树，即每个决策节点都只针对一个属性进行判别。对于多变量决策树，每一个决策节点，都是一个合适的线性分类器，即多个属性组合成的一组分类规则。

而这个线性分类器的构建就按照我们之前的那些分类算法进行构建（随便举个节点例子：a*年龄+b*收入

这样的决策树会相对复杂，训练时间更长。

九、python实现

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import tree

iris = load_iris()#数据集导入
features = iris.data#属性特征
labels = iris.target#分类标签
train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size=0.3, random_state=1)#训练集，测试集分类
clf = tree.DecisionTreeClassifier(criterion='entropy',max_depth=3)
clf = clf.fit(train_features, train_labels)#X,Y分别是属性特征和分类label
test_labels_predict = clf.predict(test_features)# 预测测试集的标签
score = accuracy_score(test_labels, test_labels_predict)# 将预测后的结果与实际结果进行对比
print("CART分类树的准确率 %.4lf" % score)# 输出结果
dot_data = tree.export_graphviz(clf, out_file='iris_tree.dot')#生成决策树可视化的dot文件

输出结果：

决策树的准确率 0.9556

还生成了一个'iris_tree.dot'文件。

在该目录下的终端输入以下命令：

dot -Tpng iris_tree.dot -o iris_tree.png

即可生成了一张'iris_tree.dot'文件对应的决策树图片

欢迎大家在评论区批评指正，谢谢~

机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
关于重投影误差小记文弱_书生乱七八糟数码相机算法
重投影误差（ReprojectionError）讲解1.什么是重投影误差？在三维重建或相机标定过程中，我们希望将一个世界坐标系中的三维点投影到相机的图像平面上。理想情况下，该点的投影位置应该与实际图像中的观测点（如特征点）完全匹配，但由于噪声、相机模型的不准确性或优化算法的误差，这两个点可能会有偏差。重投影误差就是这个偏差的度量，即：e=∥pobserved−preprojected∥e=\|p_
关于离子滤波小记文弱_书生乱七八糟人工智能计算机视觉算法
粒子滤波（ParticleFilter,PF）粒子滤波是一种基于蒙特卡洛方法的贝叶斯滤波算法，主要用于解决非线性、非高斯的状态估计问题。它广泛应用于机器人定位、目标跟踪、金融建模等领域。1.粒子滤波的基本概念粒子滤波的核心思想是用一组加权的**随机样本（粒子）**来近似后验概率分布，而非采用卡尔曼滤波那样的参数化分布假设（如高斯分布）。设系统的状态模型如下：xk=f(xk−1,uk,wk)x_k=
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
算法分析——动态规划飞跑的鱼算法
ProblemP08.[算法课动态规划]背包问题一个背包有一定的承重c，有N件物品。设数组下标从11开始。每件物品都有自己的价值，记录在数组V中，也都有自己的重量，记录在数组W中，每件物品只能选择要装入还是不装入背包，要求在不超过背包承重的前提下，选出的物品总价值最大。输出能装入背包的物品的最大总价值。输入输入一行两个整数物品数量N(1≤N≤500)承重c(1≤c≤500)。接下来输入一行N个整数
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
认识软件测试中的黑天鹅 Alan_Wdd 测试专题测试黑天鹅
1、软件测试中的“黑天鹅”几年前，我带领的一个测试小组遗漏了一个严重的bug到网上，当用户反馈这个bug后，我们对它进行了深入的分析和重现，最终所有人一致认为，这个bug能够发生实在是机缘巧合，因为它需要多个条件同时发生才有可能触发，比如“XX算法开关必须打开、XX算法开关又必须关闭、XX参数必须取某个特定值、用户的使用环境必须是XX个场景、硬件必须是使用XX接口板、软件必须是XX版本、XX的带宽
北斗导航｜接收机自主完好性监测算法研究现状及发展趋势单北斗SLAMer 卫星导航毕业论文设计算法
接收机自主完好性监测（RAIM）算法是保障卫星导航系统可靠性的核心技术，其研究现状与发展趋势可从算法设计、多系统融合、智能化技术等方面进行分析。以下基于现有研究成果及行业动态进行总结：一、研究现状传统故障检测算法RAIM的核心目标是通过冗余观测值检测并隔离故障卫星。早期研究聚焦单星故障场景，主要方法包括：残差分析法：通过比较观测残差与阈值判断故障，如最小二乘残差和法、奇偶矢量法等。距离比较法：基于
ALO蚁狮优化算法：从背景到实战的全面解析 der丸子吱吱吱智能优化算法 ALO算法
目录引言背景2.1蚁狮优化算法的起源2.2自然启发式算法的背景2.3ALO的发展与应用原理3.1蚁狮的生物行为3.2ALO的数学建模3.3算法流程与关键步骤实战应用4.1函数优化问题4.2工程优化案例4.3组合优化与约束优化代码实现与结果分析5.1Python代码实现5.2实验设计与结果分析5.3性能评估与优化建议学习资源6.1工具推荐6.2网站与文献资源6.3ALO与AI结合的方法结论1.引言在
二叉树的三种遍历【树的遍历】（C++实现）Binary Tree Traversal Vitalia 理论基础 c++树的遍历二叉树
图论入门【数据结构基础】：什么是树？如何表示树？之前我们有分别讲解二叉树的三种遍历的相关代码实现：⭐算法OJ⭐二叉树的前序遍历【树的遍历】（C++实现）BinaryTreePreorderTraversal⭐算法OJ⭐二叉树的中序遍历【树的遍历】（C++实现）BinaryTreeInorderTraversal⭐算法OJ⭐二叉树的后序遍历【树的遍历】（C++实现）BinaryTreePostord
Scrum实施情况调查之案例分析 zhijie435 项目管理 thoughtworks 敏捷项目管理敏捷开发工作框架
导读：社区Agile主题敏捷实施,企业级敏捷标签Scrum作者李剑，在InfoQ中文站上发表了一篇"Scrum在中国——企业实施情况调查实录"。这份调查实录，分别调查了五个实施SCRUM的公司，其中三家公司实施成功，二家公司失败。我建议所有准备或者正在实施SCRUM的人们都能来读一下。在此，我们会对这篇文章中的案例分类进行分析、诊断。并探讨什么是敏捷开发方法、什么是SCRUM、使用敏捷方法需要什么
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
耦合与解耦：软件工程中的核心矛盾与破局之道以恒1 软件工程
耦合与解耦：软件工程中的核心矛盾与破局之道在软件开发领域，耦合与解耦是贯穿始终的核心矛盾。它们如同硬币的两面，既相互对立又紧密依存。本文将从概念解析、类型分类、解耦策略到实际应用，全面剖析这对矛盾体的本质与破局之道。一、耦合的本质：依赖关系的多维透视耦合（Coupling）指软件系统中不同模块、组件或服务之间的相互依赖程度。这种依赖可能表现为数据传递、控制流交互或资源共享。根据耦合强度，可分为七种
HarmonyOS实战开发-如何打造购物商城APP。码牛程序猿鸿蒙工程师 HarmonyOS 鸿蒙 harmonyos OpenHarmony 鸿蒙鸿蒙应用开发华为鸿蒙开发 HarmonyOS
今天给大家分享一个非常好的实战项目，购物商城，购物商城是一个集购物、娱乐、服务于一体的综合性平台，致力于为消费者提供一站式的购物体验。各种功能都有涉及，最适合实现学习。做好商城项目，肯定会把开发中遇到的百分之60的技术得到实战的经验。下面介绍一下商城的主要模块：首页1，搜索框，点击进入搜索页面2，顶部分类，通过不同分类查询对应信息3，广告轮播，自动切换图片，可以进行点击进入4，商品列表，展示每个项
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
使用Nginx实现后端负载均衡海上彼尚 node.js nginx 负载均衡运维 node.js
目录引言一、负载均衡的核心作用二、基础配置三步曲1.定义后端服务器组（upstream）2.配置代理转发规则3.重载配置生效三、六大负载均衡算法详解四、高级配置技巧1.健康检查机制2.会话保持方案3.SSL终止优化五、实战场景配置案例案例1：WebSocket负载均衡案例2：多级地域分发案例3：连接池优化六、最佳实践与陷阱规避结语引言在现代高并发场景下，单一服务器难以支撑海量请求的处理。Nginx
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
SM系列密码算法在网络空间安全中的体系化应用研究安全
一、算法架构与技术特性解析1.1SM2椭圆曲线公钥算法基于Fp-256r1椭圆曲线构建，采用Weierstrass方程形式：y²≡x³+ax+b(modp)，其核心安全参数满足：素数模p：256位大素数基域Fp上椭圆曲线阶n满足n>2^191抗MOV约化攻击特性支持高效标量乘运算优化密钥协商协议采用改进的ECMQV机制，通过两步验证实现前向安全性，计算流程包含：临时密钥对生成：(d_A,P_A)←
密码学协议在SSL/TLS证书体系中的深度解析安全
摘要：本文从密码学协议演进视角，系统剖析SSL/TLS证书体系的实现机理与安全边界。聚焦TLS1.3协议标准，揭示椭圆曲线密码体制(ECC)与混合密钥交换机制的协同运作，探讨证书透明度(CT)系统的密码学验证模型，并构建后量子时代数字证书的迁移路径框架。一、SSL/TLS协议栈的密码学架构演进X.509证书的密码学基因由PKI体系决定，其信任锚点植根于CA机构的数字签名算法选择。TLS1.3协议废
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
基于MATLAB路径规划仿真轨迹规划，船舶轨迹跟踪控制，数学模 985计算机硕士仿真模型 matlab 开发语言
MATLAB路径规划仿真轨迹规划，船舶轨迹跟踪控制，数学模MATLAB路径规划仿真轨迹规划，船舶轨迹跟踪控制，数学模型基于两轮差速的小车模型，用PID环节对航向角进行控制，迫使小车走向目标，或用PID环节对航向角和距离进行控制，迫使小车走向目标LQR算法可自行小车起点坐标文章目录初始化环境定义PID控制函数运行仿真代码说明：代码示例代码说明：为了实现基于两轮差速模型的小车在MATLAB中的路径规划
基于Matlab_simulink仿真相关控制算法、优化算法相关帮助代做，原理讲解 985计算机硕士仿真模型 matlab 算法开发语言
Matlab/simulink仿真相关控制算法、优化算法相关帮助代做，原理讲解：1.优化算法相关：蚁群优化算法，遗传优化算法等2.控制器相关：ADRC控制，鲁棒控制，神经网络控制，MPC等3.神经网络相关：BP神经网络，RBF神经网络，LSTM神经网络等文章目录1.优化算法相关蚁群优化算法（ACO）2.控制器相关ADRC控制3.神经网络相关BP神经网络1.构建光伏系统模型1.1光伏电池模型1.2控
u-net系列算法㡽闧㔯人工智能算法
语义分割M整体结构：M概述就是编码解码过程简单但是很实用，应用广起初是做医学方向，现在也是U-net主要网络结构：还引入了特征拼接操作M以前我们都是加法，现在全都要这么简单的结构就能把分割任务做好U-net++整体网络结构：特征融合，拼接更全面其实跟densenet思想一致把能拼能凑的特征全用上就是升级版了U-net++DeepSupervision：也是很常见的事，多输出损失由多个位置计算，再更
基于FPGA的DDS连续FFT 仿真验证 toonyhe FPGA开发 fpga开发 DDS FFT IFFT
基于FPGA的DDS连续FFT仿真验证1摘要本文聚焦AMDLogiCOREIPFastFourierTransform(FFT)核心，深入剖析其在FPGA设计中的应用。该FFT核心基于Cooley-Tukey算法，具备丰富特性，如支持多种数据精度、算术类型及灵活的运行时配置。文中详细介绍了其架构选项、端口设计、理论运算原理，以及在不同场景下的动态范围特性。同时，结合VivadoDesignSuit
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
CAPL变量输出的格式说明符正当少年 CAPL CAPL
在CAPL（CANAccessProgrammingLanguage）中，变量输出的格式说明符用于控制变量在输出时的显示格式。以下是常用的CAPL变量输出格式说明符分类整理：以下是CAPL变量格式说明符的具体实例，展示了如何使用这些说明符来输出不同类型的变量：1.整数类型%d输出有符号十进制整数。intx=123;write("Value:%d",x);//输出:Value:123%u输出无符号十
自学网络安全（黑客技术）2025年 —三个月学习计划 csbDD web安全学习安全网络 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
算法基础——蓝桥杯（python实现，实际上大多数用c++更明白易懂）（第一部分，共12个小题） New_Teen 算法蓝桥杯 python
1.成绩统计问题描述:编写一个程序，建立一个字典，每个字典包含姓名、学号、英语成绩、数学成绩和C++成绩，并通过字典操作平均分最高的学生和平均分最低的学生并且输出。输入格式：输入n+1行，第一行输入一个正整数n，表示学生数量；接下来的n行每行输入5个数据，分别表示姓名、学号、英语成绩、数学成绩和C++成绩。注意成绩有可能会有小数。输出格式：输出两行，第一行输出平均成绩最高的学生姓名。第二行输出平均
图像识别技术与应用课后总结（20）一元钱面包人工智能
图像分割概念图像分割是把图像中不同像素划分到不同类别，预测目标轮廓，属于细粒度分类。比如将图像里不同物体、背景等区分开来，就像把一幅画里的各个元素精准归类。应用场景人像抠图：能精准分离人物和背景，用于图片编辑、影视制作等，比如去除照片背景换背景。医学组织提取：在医学影像（如CT、MRI图像）中分离出不同组织，辅助疾病诊断、手术规划等。遥感图像分析：分析卫星或航空遥感图像时，区分土地、植被、建筑等不
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

决策树详解

一、数学基础

1、信息熵

2、信息增益

二、决策树的组成

1、决策节点

2、叶子节点

3、决策树的深度

三、决策树的建立(基于信息增益）

1、计算根节点的信息熵

2、计算属性的信息增益

3、接下来我们继续重复1，2的做法继续寻找合适的属性节点

四、决策树的另一划分标准——增益率（C4.5决策树算法）

1、引入原因

2、定义

3、例子

4、注意点

五、决策树的另一划分标准——基尼指数（CART决策树）

1、定义

2、决策树建立方法（分类回归均可用）

六、剪枝处理

1、提出原因

2、剪枝与其处理基本策略

3、预剪枝

4、后剪枝

七、连续与缺失值

1、连续值处理

2、缺失值处理

八、多变量决策树

九、python实现

你可能感兴趣的:(机器学习,决策树,机器学习,算法,分类)