why do not

机器学习算法 - 决策树

一、什么是决策树

二、决策树的学习过程

三、划分选择

1.信息增益 - ID3算法

信息熵

信息增益

2.增益率 - C4.5算法

3.基尼指数 - CART决策树

基尼指数

本节总结

四、剪枝处理

1.预剪枝（prepruning）

2.后剪枝（post-pruning）

本节总结

五、决策树的三种常用算法

1.ID3算法/基本决策树

2.C4.5算法

3.CART算法

CART分类树算法

CART回归树算法

优缺点

本节总结

六、多变量决策树

前言

1、首先，在了解树模型之前，自然想到树模型和线性模型有什么区别呢？

其中最重要的是，树形模型是一个一个特征进行处理，线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此，逻辑回归是将所有特征变换为概率后，通过大于某一概率阈值的划分为一类，小于某一概率阈值的为另一类；而决策树是对每一个特征做一个划分。另外逻辑回归只能找到线性分割（输入特征x与logit之间是线性的，除非对x进行多维映射），而决策树可以找到非线性分割。

而树形模型更加接近人的思维方式，可以产生可视化的分类规则，产生的模型具有可解释性（可以抽取规则）。树模型拟合出来的函数其实是分区间的阶梯函数。

2、了解决策树前，还需了解熵。

物理学上，熵 Entropy 是“混乱”程度的量度。

熵：表示随机变量不确定性的度量

熵如何度量呢 --- 熵的量化

比如定义一个事件的不确定性相当于抛几次银币的不确定性。抛一次硬币，出现正面的情况是50%，反面也是50%，记作抛一次硬币的不确定性记为1bit。

抛硬币的次数与结果不确定性是呈指数关系。

抛硬币次数	结果情况的种数
1	2
2	4
3	8
n	2^n

熵的量化分为两种情况：

等概率均匀分布

公式：n = log_2 m

解释：8个等概率的不确定性情况，相当于抛3个硬币，熵为3bit

每种情况概率不等的一般分布

公式：

一、什么是决策树

所谓决策树，就是一个类似于流程图的树形结构，树内部的每一个节点代表的是对一个特征的测试，树的分支代表该特征的每一个测试结果，而树的每一个叶子节点代表一个类别。树的最高层是就是根节点。下图即为一个决策树的示意描述，内部节点用矩形表示，叶子节点用椭圆表示。

二、决策树的学习过程

输入：训练集D={(x1,y1),(x2,y2),…(xm,ym)};
属性集A={a1,a2,…ad}.
过程：函数TreeGenerate(D,A)

生成结点node；
if D中样本全属于同一类别C：
将node标记为C类叶结点；
递归返回；
end if
if A=空集或 D中样本在A上取值相同：
将node标记为D中样本数(当前结点)最多的类(成为叶结点)；
递归返回；
end if
从A中选择最优划分属性a*：
a*=argmax Gain（D,a）
[最大化信息增益，偏好可取值数目较多的属性 ]
a*=argmax Gain_ratio（D,a）
[ 最大化信息增益率，偏好可取值数目较少的属性]
a*=argmin Gini_index（D,a）
[最小化基尼指数]
for a* 的每个值 a‘* do
为node生成一个分支；令Dv表示D中在a*上取值为a’*的样本子集
if Dv为空：
将分支结点标记为D中样本数(父结点)最多的类(成为叶结点);
递归返回；
else
以TreeGenerate（Dv，A{a*}）为分支结点
end if
end for

输出：以node为根结点的一棵决策树

三、划分选择

决策树学习的关键其实就是选择最优划分属性，希望划分后，分支结点的“纯度”越来越高。那么“纯度”的度量方法不同，也就导致了学习算法的不同。

1.信息增益 - ID3算法

信息熵

“信息熵”是度量样本集合纯度（purity）的最常用的指标。信息熵 --- 不纯度（impurity）

假定当前样本集合 D 中第 k 类样本所占的比例为 pk ，则 D 的信息熵定义为

或者这样表示

Ent(D)的值越小，则D的纯度越高。

信息增益

离散属性 a 有 V 个可能的取值 {a1,a2,…,aV}；

若使用a对样本集D进行划分，则会产生V个分支结点，其中第v个分支结点包含了D中属性 a 上取值为 av 的样本集合，记为 Dv。
考虑到不同分支结点所含样本数不同，给分支结点赋予权重|Dv| / |D|。

用属性 a 对样本集 D 进行划分所获得的“信息增益”，如下表示

或者这样表示

简单来说就是父结点与子结点的信息熵的差，就是信息增益。

信息增益越大，使用属性a来划分所获得的“纯度提升”越大。

另外，信息增益还可以用基尼系数来计算。

2.增益率 - C4.5算法

用属性 a 对样本集 D 进行划分所获得的“增益率”，如下表示

公式：

其中IV(a)称为属性a的“固有值”

信息增益准则对可取值数目较多的属性有所偏好（比如把“编号”作为一个划分属性，则将产生实例数这么多的分支，每个分支结点仅包含一个样本，这些分支结点的纯度已达最大，但这样的决策树显然不具有泛化能力），为减少这种偏好带来的不利影响，C4.5决策树算法使用“增益率”来选择最优划分属性。

增益率准则对可取数目较少的属性有所偏好（属性a的可能取值数目越多（即V越大），则IV(a)的值通常会越大。例如 IV(触感) = 0.874 ( V = 2 )、IV(色泽) = 1.580 ( V = 3 )、IV(编号) = 4.088 ( V = 17）），因此C4.5算法不是直接选择增益率最大的候选划分属性，而是使用一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

3.基尼指数 - CART决策树

数据集D的纯度也可用基尼值来度量。

GINI系数就是不纯度（impurity）

基尼值Gini(D)反应了从数据集D中随机抽取两个样本，其类别标记不一致的概率。

Gini(D)越小，则数据集D的纯度越高。

基尼指数

属性a的基尼指数定义为

于是，我们在候选属性集A中，选择使得划分后基尼指数最小的属性作为最优划分属性，即a*=argmin Gini_index(D,a)

本节总结

1、数据集的纯度可以用“信息熵”、“基尼值”来进行度量

2、信息增益可以用信息熵计算，也可以用基尼值来计算。（注意：度量值不一样）

四、剪枝处理

由于噪声等因素的影响，会使得样本某些特征的取值与样本自身的类别不相匹配的情况，基于这些数据生成的决策树的某些枝叶会产生一些错误；尤其是在决策树靠近枝叶的末端，由于样本变少，这种无关因素的干扰就会突显出来；由此产生的决策树可能存在过拟合的现象。树枝修剪就是通过统计学的方法删除不可靠的分支，使得整个决策树的分类速度和分类精度得到提高。

剪枝策略：预剪枝、后剪枝（判断剪枝后能否提升性能，来决定“预剪枝”是否划分、“后剪枝”是否剪枝）

那么如何判断决策树泛化性能是否提升呢？性能评估方法有很多，比如留出法，即预留一部分数据作“验证集”以进行性能评估。

1.预剪枝（prepruning）

预剪枝是指在决策树生成的过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点。

2.后剪枝（post-pruning）

后剪枝则是先从训练集生成一颗完成的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

本节总结

预剪枝优缺点：

1、使决策树很多分支没有“展开”，降低过拟合的风险，减少决策树训练时间和测试时间开销

2、有欠拟合的风险（分支的当前划分可能不能提高泛化性能，但是基于其后的分支可能提升性能）

后剪枝优缺点：

1、欠拟合的风险很小，泛化性能往往优于预剪枝决策树

2、训练时间开销大

五、决策树的三种常用算法

1.ID3算法/基本决策树

ID3算法是最早提出的一种决策树算法，ID3算法的核心是在决策树各个节点上应用信息增益准则来选择特征，递归的构建决策树。

具体方法是：从根节点开始，对节点计算所有可能的特征的信息增益，选择信息增益最大的特征作为节点的特征，由该特征的不同取值建立子节点：再对子节点递归的调用以上方法，构建决策树：直到所有的特征信息增益均很小或没有特征可以选择为止。

2.C4.5算法

C4.5算法与ID3算法决策树的生成过程相似，C4.5算法对ID3算法进行了改进。它是用信息增益率（比）来选择特征。

这里的改进主要是针对样本特征来作。
（1）基本决策树要求特征A取值为离散值，如果A是连续值，假如A有v个取值，则对特征A的测试可以看成是对v-1个可能条件的测试，其实可以把这个过程看成是离散化的过程，只不过这种离散的值间隙会相对小一点；当然也可以采用其他方法，比如将连续值按段进行划分，然后设置哑变量；
（2）特征A的每个取值都会产生一个分支，有的时候会导致划分出来的子集样本量过小，统计特征不充分而停止继续分支，这样在强制标记类别的时候也会带来局部的错误。针对这种情况可以采用A的一组取值作为分支条件；或者采用二元决策树，每一个分支代表一个特征取值的情况（只有是否两种取值)。
（3）某些样本在特征A上值缺失，针对这种空值的情况，可以采用很多方法，比如用其他样本中特征A出现最多的值来填补空缺，比如采用均值、中值等，甚至在某些领域的数据中可以采用样本内部的平滑来补值，当样本量很大的时候也可以丢弃这些有缺失值的样本。
（4）随着数据集的不断减小，子集的样本量会越来越小，所构造出的决策树就可能出现碎片、重复、复制等总是。这时可以利用样本的原有特征构造新的特征进行建模；
（5）信息增益法会倾向于选择取值比较多的特征（这是信息熵的定义决定了的），针对这一问题，人们提出了增益比率法（gain ratio），将每个特征取值的概率考虑在内，及gini索引法，χ2χ2条件统计表法和G统计法等。

3.CART算法

参考：决策树--CART树详解

既可以做分类，也可以做回归。只能形成二叉树。

分支条件：二分类问题

分支方法：对于连续特征的情况：比较阈值，高于某个阈值就属于某一类，低于某个阈值属于另一类。对于离散特征：抽取子特征，比如颜值这个特征，有帅、丑、中等三个水平，可以先分为帅和不帅的，不帅的里面再分成丑和中等的。

得分函数（y）：对于分类树取得是分类最多的那个结果（也即众数），对于回归树取得是均值。

损失函数：其实这里的损失函数，就是分类的准则，也就是求最优化的准则

对于分类树（目标变量为离散变量）：同一层所有分支假设函数的基尼系数的平均。

对于回归树（目标变量为连续变量）：同一层所有分支假设函数的平方差损失

分裂准则：

对于分类树（目标变量为离散变量）：使用基尼系数作为分裂规则。比较分裂前的gini和分裂后的gini减少多少，减少的越多，则选取该分裂规则

对于回归树（目标变量为连续变量）：使用最小方差作为分裂规则。只能生成二叉树。

CART分类树算法

CART分类树算法对于连续特征和离散特征处理的改进：

对于CART分类树连续值的处理问题，其思想和C4.5是相同的，都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同，C4.5使用的是信息增益比，则CART分类树使用的是基尼系数。

　具体的思路如下，比如m个样本的连续特征A有m个，从小到大排列为a1,a2,...,am,则CART算法取相邻两样本值的平均数，一共取得m-1个划分点，其中第i个划分点表示为： $T_{i}=\frac{a_{i}+a_{i+1}}{2}$ 。对于这m-1个点，分别计算以该点作为二元分类点时的基尼系数。选择基尼系数最小的点作为该连续特征的二元离散分类点。比如取到的基尼系数最小的点为，则小于的值为类别1，大于的值为类别2，这样我们就做到了连续特征的离散化。

要注意的是，与离散属性不同，若当前结点划分属性为连续属性，该属性还可作为其后代结点的划分属性。（不管是C4.5，还是CART）

　　对于CART分类树离散值的处理问题，采用的思路是不停的二分离散特征。

　　回忆下ID3或者C4.5，如果某个特征A被选取建立决策树节点，如果它有A1,A2,A3三种类别，我们会在决策树上一下建立一个三叉的节点,这样导致决策树是多叉树。但是CART分类树使用的方法不同，他采用的是不停的二分，还是这个例子，CART分类树会考虑把A分成{A1}和{A2,A3}, {A2}和{A1,A3}, {A3}和{A1,A2}三种情况，找到基尼系数最小的组合，比如{A2}和{A1,A3},然后建立二叉树节点，一个节点是A2对应的样本，另一个节点是{A1,A3}对应的节点。同时，由于这次没有把特征A的取值完全分开，后面我们还有机会在子节点继续选择到特征A来划分A1和A3。这和ID3或者C4.5不同，在ID3或者C4.5的一棵子树中，离散特征只会参与一次节点的建立。

CART回归树算法

CART回归树和CART分类树的建立算法大部分是类似的，所以这里我们只讨论CART回归树和CART分类树的建立算法不同的地方。

　　首先，我们要明白，什么是回归树，什么是分类树。两者的区别在于样本输出，如果样本输出是离散值，那么这是一颗分类树。如果果样本输出是连续值，那么那么这是一颗回归树。

　　除了概念的不同，CART回归树和CART分类树的建立和预测的区别主要有下面两点：

　　1)连续值的处理方法不同

　　2)决策树建立后做预测的方式不同。

　　对于连续值的处理，我们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型，但是对于回归模型，我们使用了常见的和方差的度量方式，CART回归树的度量目标是，对于任意划分特征A，对应的任意划分点s两边划分成的数据集D1和D2，求出使D1和D2各自集合的均方差最小，同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为：

其中，c1为D1数据集的样本输出均值，c2为D2数据集的样本输出均值。

对于决策树建立后做预测的方式，上面讲到了CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别，它采用的是用最终叶子的均值或者中位数来预测输出结果。

优缺点

主要缺点如下：

1、应该大家有注意到，无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策，但是大多数，分类决策不应该是由某一个特征决定的，而是应该由一组特征决定的。这样决策得到的决策树更加准确。这个决策树叫做多变量决策树(multi-variate decision tree)。在选择最优特征的时候，多变量决策树不是选择某一个最优特征，而是选择最优的一个特征线性组合来做决策。这个算法的代表是OC1，这里不多介绍。

2、如果样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习里面的随机森林之类的方法解决。

本节总结

下表给出了ID3，C4.5和CART的一个比较总结。

算法	支持模型	树结构	特征选择（分支方式）	连续值处理	缺失值处理	剪枝	备注
ID3	分类	多叉树	信息增益	不支持	不支持	不支持	只能处理离散属性，不能处理缺失值
C4.5	分类	多叉树	信息增益比	支持	支持	支持	解决了ID3分支中喜欢偏向属性值较多的属性
CART	分类，回归	二叉树	基尼系数，均方差	支持	支持	支持（后剪枝）	可进行分类和回归，只能是二叉树

六、多变量决策树

但在学习任务的真实分类边界比较复杂时，必须使用很多段划分才能获得较好的近似。多变量决策树使用斜的划分边界，在此类决策树中，非叶结点不再是仅对某个属性，而是对属性的线性组合进行测试。

参考资料：

机器学习算法（3）之决策树算法_不曾走远的博客-CSDN博客_决策树算法

机器学习算法------（4.1 决策树算法简介、4.2 决策树分类原理（信息增益、信息增益率、基尼值和基尼指数））_程序猿-凡白的博客-CSDN博客_基尼指数原理

2024年CSP-J初赛备考建议再临TSC c++杂谈 c++学习
针对2024年CSP-J（ComputerSciencePrinciplesJunior，即计算机科学原理初级认证）的备考，首先，先来看考试可能考的东西：动规（包括背包问题），主要在程序阅读还有程序补全题考，这方面，了解动规的原理就可以轻松拿分高精，也是在阅读和补全题，了解原理即可，Z2~Z3应该就学高精了深搜广搜，基础题可能会给你一个片段，然后问你这是什么算法，或者，问你下列选项中哪个正确，给你
详解贪心算法凭君语未可算法软考算法贪心算法
贪心算法什么是贪心算法？贪心算法的特点贪心算法的应用场景贪心算法的基本思路贪心算法的经典应用1.活动选择问题2.最小硬币找零问题3.霍夫曼编码问题贪心算法的正确性贪心算法的优缺点总结什么是贪心算法？贪心算法（GreedyAlgorithm）是一种基于每一步都选择当前最优解的算法设计思想。它在每个阶段总是做出在当前看来最优的选择（局部最优解），而不回溯或考虑整个问题的全局最优性。它期望通过这样逐步构
Java 后端程序员必须要懂的几种框架分享 Java烟雨 java mvc 开发语言
MVC框架MVC模式是软件工程中的一种软件架构模式，可以把软件系统分为三个基本部分：模型（Model），编写程序应有的功能（实现算法等等）、进行数据管理和数据库设计，。视图（View），界面设计人员进行图形界面设计。控制器（Controller），负责转发请求，对请求进行处理。比较知名的MVC框架有SpringMVC，是一种基于请求驱动类型的轻量级Web框架，目的是帮助我们后端程序员简化开发。我个
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
【ShuQiHere】从插入排序到归并排序：探究经典排序算法的魅力与实战应用 ShuQiHere 排序算法算法
【ShuQiHere】引言在计算机科学领域，排序算法是我们日常编程中经常会遇到的基本问题。无论是对数据进行排序、查找，还是优化复杂系统，排序算法都起着至关重要的作用。在这篇文章中，我们将详细探讨两种经典排序算法：插入排序和归并排序，通过对它们的原理、时间复杂度和实际应用场景的分析，帮你更好地理解并灵活应用这些算法。1.插入排序：像整理扑克牌一样排序插入排序（InsertionSort）是一种简单且
Matlab2024a安装教程是阿宇呢信息可视化开发语言
MATLAB是一款商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分，可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等，主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。1.解压安装包：①鼠标右击【MATLABR2024a(64bit)
Java-后端程序员个人知识总结金肴羽 java 开发语言
文章目录概要1.编程语言2.数据结构与算法3.数据库知识4.框架和库5.服务器管理6.网络知识7.版本控制8.测试9.安全知识10.系统设计11.编码规范与最佳实践12.持续学习和适应能力概要后端程序员，主要负责应用程序的逻辑、数据库交互、服务器配置以及应用的性能优化等。成为一名优秀的后台程序员，需要掌握以下技能：1.编程语言掌握至少一种后台编程语言JavaPythonHtmlJavaScript
【3.6 python中的numpy编写一个“手写数字识”的神经网络】 wang151038606 深度学习入门 python numpy 神经网络
3.6python中的numpy编写一个“手写数字识”的神经网络要使用Python中的NumPy库从头开始编写一个“手写数字识别”的神经网络，我们通常会处理MNIST数据集，这是一个广泛使用的包含手写数字的图像数据集。但是，完全用NumPy来实现神经网络（包括数据的加载、预处理、模型定义、前向传播、损失计算、反向传播和权重更新）是一个相当复杂的任务，因为NumPy本身不提供自动微分或高级优化算法（
掌握检索技术：构建高效知识检索系统的架构与算法23 是小旭啊人工智能
在检索专业知识层需要涵盖更高级的检索技术，包括工程架构和算法策略。一、工程架构工程架构在构建检索系统中决定了系统的可扩展性、高可用性和性能。比如需要考虑的基本点：分布式架构：水平扩展：采用分布式架构，将检索任务分布到多个节点上，实现水平扩展。这可以通过将索引数据分片存储在不同的节点上，并使用分布式文件系统或对象存储来存储大规模的索引数据。任务分配：设计任务调度器，负责将查询请求分配到空闲的节点上进
掌握检索技术：构建高效知识检索系统的架构与算法21 是小旭啊人工智能
在检索专业知识层需要涵盖更高级的检索技术，包括工程架构和算法策略。一、工程架构工程架构在构建检索系统中决定了系统的可扩展性、高可用性和性能。比如需要考虑的基本点：分布式架构：水平扩展：采用分布式架构，将检索任务分布到多个节点上，实现水平扩展。这可以通过将索引数据分片存储在不同的节点上，并使用分布式文件系统或对象存储来存储大规模的索引数据。任务分配：设计任务调度器，负责将查询请求分配到空闲的节点上进
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
连通无向图一般中心的算法及其matlab程序详解夏天天天天天天天# 图论算法 matlab 图论
#################本文为学习《图论算法及其MATLAB实现》的学习笔记#################若服务点只允许取在各顶点上,而服务对象却取在各顶点及各边(或弧)上的点,则在所有顶点中选定一个顶点作为图的一般中心其条件是该点离它本身的最远服务对象(包括顶点及各边(或弧)上的点)的距离达到极小值。寻找无向图的一般中心对解决网络最佳服务点确定的问题是十分有效的，使得服务对象的范围
垂直领域大模型微调实践经验最全总结人工智能大模型讲师培训咨询叶梓人工智能微调性能优化大模型 ai 训练微调大模型微调
瓦力算法学研所技术总结专栏作者：vivida本篇从基座模型选择、模型整体架构、数据设计、训练微调四个角度总结垂直领域大模型微调经验。本篇将现有垂类大模型微调已公布的实践经验做一个全面的总结，大部分经验实测可推广，大家在自己实践过程中可以进行适当参考。下面是一个快捷目录，其中数据设计和训练微调是重点。1.基座模型选择2.模型整体架构3.数据设计4.训练微调基座模型选择1.医学类大模型微调怎么选择大模
MATLAB|基于多时段动态电价的电动汽车有序充电策略优化科研工作站电动汽车 matlab 电动汽车动态电价场景分析无序充电有序充电粒子群
目录主要内容模型研究一、蒙特卡洛模拟部分代码部分结果一览下载链接主要内容该模型参考文献《基于多时段动态电价的电动汽车有序充电策略优化》，采用蒙特卡洛随机抽样方法来模拟电动汽车无序充电状态下的负荷曲线，并设置三个对比算例--基础场景（无电动汽车）、电动汽车无序充电和电动汽车有序充电场景，有序充电场景以电网端负荷差最小和用户侧充电成本最经济为目标，通过粒子群算法进行求解，程序采用matlab+matp
【HarmonyOS】- 常见算法简单写法数的羊都睡了 HarmonyOS ArkTS 鸿蒙
文章目录知识回顾前言源码分析1.冒泡排序2.二分法查找拓展知识时间、空间复杂度总结知识回顾前言常见算法简单写法源码分析1.冒泡排序functionbubbleSort(arr:number[]):number[]{constn=arr.length;for(leti=0;iarr[j+1]){//交换元素consttemp=arr[j];arr[j]=arr[j+1];arr[j+1]=temp;
文本生成图像工作简述1--概念介绍和技术梳理尹凯
姓名：尹凯学号：22011210590学院：通信工程学院原文链接：https://blog.csdn.net/air__Heaven/article/details/127302735【嵌牛导读】文本生成图像的概念介绍与技术梳理【嵌牛鼻子】文本生成图像基于深度学习的机器学习方法已经在语音、文本、图像等单一模态领域取得了巨大的成功，而同时涉及到多种输入模态的多模态机器学习研究有巨大的应用前景和广泛的
大模型框架：vLLM m0_37559973 大模型大模型通义千问 Qwen
目录一、vLLM介绍二、安装vLLM2.1使用GPU进行安装2.2使用CPU进行安装2.3相关配置三、使用vLLM3.1离线推理3.2适配OpenAI-API的API服务一、vLLM介绍vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。二、安装vLLM2.1使用GPU进行安装vLLM是一个Py
AI算法部署方式对比分析：哪种方案性价比最高？ TSINGSEE AI智能人工智能视频监控技术安防视频监控
随着人工智能技术的飞速发展，AI算法在各个领域的应用日益广泛。AI算法的部署方式直接关系到系统的性能、实时性、成本及安全性等多个方面。本文将探讨AI算法分析的三种主要部署方式：本地计算、边缘计算和云计算，并详细分析它们的优劣性。一、本地计算1）部署方式本地计算是指将AI算法直接部署在摄像头或其他终端设备上。这种部署方式使得数据处理和分析在设备本地完成，无需通过网络传输数据。2）优点高效实时：由于数
一篇文章带你彻底弄懂大模型——掌握基本概念，领先别人一步！努力的光头强 transformer 职场和发展深度学习人工智能 langchain
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的基本概念出发，对大模型领域容易混淆的相关概念进行区分，并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。本文目录如下：·大模型的定义·大模型相关概念区分·大模型的发展历程·大模型的特点·大模型的分类·大模型的泛化与微调1.大模型的定义大模型是指具有大规模参数和复杂计算结
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
Vue项目中实现AES加密解密小金子J 前端框架 JavaScript分享 vue.js 前端 javascript
在前端开发中，保护用户数据的安全性至关重要。AES（高级加密标准）作为一种广泛使用的对称加密算法，因其高效性和安全性而受到青睐。本文将介绍如何在Vue项目中实现AES加密解密，包括ECB和CBC两种模式。环境搭建在Vue项目中使用AES加密解密功能之前，需要先安装crypto-js库。通过执行以下命令，可以轻松地将crypto-js添加到项目中：npminstallcrypto-js--save-
yolov5单目测距+速度测量+目标跟踪 cv_2025 YOLO 目标跟踪人工智能计算机视觉机器学习图像处理 opencv
要在YOLOv5中添加测距和测速功能，您需要了解以下两个部分的原理：单目测距算法单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法（如立体匹配）和基于深度学习的方法（如神经网络）。基于深度学习的方法通常使用卷积神经网络（CNN）来学习从图像到深度图的映射关系。单目测距代码单目测距涉及到坐标转换，代码如下：defconvert_2D_to_3D(point2D,R,
使用Fleet AI Context和LangChain构建高效的文档检索系统 afTFODguAKBF 人工智能 langchain python
使用FleetAIContext和LangChain构建高效的文档检索系统引言在当今的AI和机器学习领域，高质量的文档检索系统对于提高开发效率和用户体验至关重要。本文将介绍如何利用FleetAIContext提供的高质量embeddings和LangChain框架来构建一个强大的文档检索系统。我们将深入探讨如何处理嵌入向量、检索相关文档，以及如何将这些功能整合到一个简单但功能强大的代码生成链中。主
【JAVA】数据脱敏技术（对称加密算法、非对称加密算法、哈希算法、消息认证码（MAC）算法、密钥交换算法）使用方法来一杯龙舌兰 Java java 开发语言数据脱敏技术加密算法 AES
文章目录数据脱敏的定义和目的数据脱敏的技术分类对称加密算法非对称加密算法哈希算法消息认证码（MAC）算法密钥交换算法数据脱敏的技术方案实现字符替换哈希算法（例如:SHA-3算法）消息认证码（MAC）算法(CMAC)消息认证码（MAC）算法(HMAC)对称/非对称加密实现方式（例如：AES加密算法）数据分段数据伪装更多相关内容可查看数据脱敏的定义和目的数据脱敏（DataMasking）是指对数据进行
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
使用MLOps进行AI部署的顶级公司 AI研报人工智能
自从AI技术进入主流领域以来，MLOps（机器学习运维）已成为在生产环境中部署和管理机器学习模型的一系列实践，这对企业的成败起着关键作用。各种背景的公司都在采用MLOps技术，以简化操作、提高模型效率和扩展AI解决方案。本文介绍了在AI部署方面表现突出的顶尖公司，它们的策略以及成功案例。使用MLOps进行AI部署的公司1.谷歌谷歌在MLOps领域处于领先地位，凭借其在云计算和机器学习研发方面的深厚
形式向好、成本较低、可拓展性较高的名厨亮灶开源了 AI服务老曹开源人工智能能源智慧城市大数据
简介AI视频监控平台,是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，减少企业级应用约95%的开发成本，在强大视频算法加持下的AR使得远程培训和远程操作指导不仅仅能够实现前后场的简单互动，而且能够实现人机结合，最终实现整个巡检流程的标准化。用户仅需在界面上简单操作，即可实现全视频的接入及布控。基础项
针对不同区域的摄像头，完成不同的算法配置的智慧快消开源了 AI服务老曹开源人工智能大数据智慧城市
智慧快消视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。基于多年的深度学习技术研究和业务应用为基础，集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体，是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。基
可对画面进行平台传输，实时查看监控的智慧交通开源了。 ai产品老杨人工智能音视频安全开源 vue.js
智慧交通视觉监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。用户只需在界面上进行简单的操作，就可以实现全视频的接入及布控。项目搭建地址项目开源地址：yihecode-server本项目基于ai场景而开发，提供算法模型管理、摄像头管理、告警管理、数
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

机器学习算法 - 决策树

一、什么是决策树

二、决策树的学习过程

三、划分选择

1.信息增益 - ID3算法

信息熵

信息增益

2.增益率 - C4.5算法

3.基尼指数 - CART决策树

基尼指数

本节总结

四、剪枝处理

1.预剪枝（prepruning）

2.后剪枝（post-pruning）

本节总结

五、决策树的三种常用算法

1.ID3算法/基本决策树

2.C4.5算法

3.CART算法

CART分类树算法

CART回归树算法

优缺点

本节总结

六、多变量决策树

你可能感兴趣的:(机器学习,机器学习,决策树,算法)