高朗

【机器学习】决策树原理及scikit-learn使用

文章目录

决策树详解
- ID3 算法
- C4.5算法
- CART 算法
scikit-learn使用
- 分类树
- - 剪枝参数
  - 重要属性和接口
- 回归树
- - 重要参数，属性及接口
  - 交叉验证
  - 代码示例
- 一维回归的图像绘制

决策树详解

决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。

决策树由结点(node)和有向边(directed edge)组成。结点有两种：内部结点(internal node)和叶子结点(leaf node)，其中内部结点表示一个特征或者属性，叶子结点表示一个类。

下图为是否为哺乳动物的二分类决策树：体温和胎生为特征，哺乳动物和非哺乳动物为类别。【可以看成if-else的结够，根据给定的数据，一路走下去，最后得出结论】

原则上讲，任意一个数据集上的所有特征都可以被拿来分枝，特征上的任意节点又可以自由组合，所以一个数据集上可以发展出非常非常多棵决策树，其数量可达指数级。在这些树中，总有那么一棵树比其他的树分类效力都好，那样的树叫做”全局最优树“。

暴力搜索方法肯定行不通，时间复杂度太高。
机器学习研究者们开发了一些有效的算法，能够在合理的时间内构造出具有一定准确率的次最优决策树。这些算法基本都执行”贪心策略“，即通过局部的最优来达到我们相信是最接近全局最优的结果。

在学习算法之前，先了解几个概念：

信息熵：熵度量了事物的不确定性，越不确定的事物，它的熵就越大。
随机变量X的熵的表达式如下：

其中n代表X的n种不同的离散取值。而 $p_{x_i}$ 代表了X取值为i的概率，log为以2或者e为底的对数。

条件熵 (Conditional Entropy)： $H (X ∣ Y)$ 表示在已知随机变量Y的条件下随机变量X的不确定性。

$H(X|Y)=\sum_{j=1}^np(y_i)H(X|y_i)$

信息增益：特征A对训练数据集D的信息增益 $I (D, A)$ ,定义为集合D的经验熵 $H (D)$ 与给定特征A在给定条件下D的经验条件熵 $H (D ∣ A)$ 之差，即：

$I (D, A) = H (D) - H (D ∣ A)$

$H (D ∣ A)$ 表示在特征A在给定条件下对数据集D进行分类的不确定性，二者之差即为信息增益，表示特征A使得数据集D的分类不确定性减少的程度。
显然，对于信息增益大的特征具有更强的分类能力。

具体计算示例：

构建最优树的算法：

ID3 算法

ID3算法的核心就是在决策树各个节点上应用信息增益准则选择特征，递归地构建决策树。

具体过程：-

输入：训练数据集D、特征集A、，阈值ϵ
输出：决策树T

判断T是否需要选择特征生成决策树：

若D中所有实例属于同一类，则T为单结点树，记录实例类别 $C_k$ ，以此作为该结点的类标记，并返回T;

若D中所有实例无任何特征(A=空集)，则T为单结点树，记录D中实例个数最多类别 $C_k$ ，以此作为该结点的类标记，并返回T ;

否则，计算A中各特征的信息增益，并选择信息增益最大的特征 $A_g$ ;

若 $A_g$ 的信息增益小于ϵ，则T为单结点树，记录D中实例个数最多类别 $C_k$ ，以此作为该结点的类标记，并返回T ;

否则，按照 $A_g$ 的每个可能值 $a_i$ ，将D分为若干非空子集 $D_i$ ，将 $D_i$ 中实例个数最多的类别作为标记，构建子结点，以结点和其子节点构成T，并返回T ;

第 $i$ 个子结点，以 $D_i$ 为训练集， $A-A_g$ 为特征集合，递归地调用以上步骤，得到子树 $T_i$ 并返回。

C4.5算法

D3算法有四个主要的不足，一是不能处理连续特征，第二个就是用信息增益作为标准容易偏向于取值较多的特征，最后两个是缺失值处理的问和过拟合问题。C4.5算法中改进了上述4个问题。

==信息增益作为标准容易偏向于取值较多的特征的问题。==我们引入一个信息增益比的变量 $I_R(X,Y)$ ，它是信息增益和特征熵的比值。表达式如下：

$I_R(D,A)=\frac{I(A,D)}{H_A(D)}$

其中D为样本特征输出的集合，A为样本特征，对于特征熵 $H_A(D$ ), 表达式如下：

$H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$
其中n为特征A的类别数， $D_i$ 为特征A的第i个取值对应的样本个数。 $∣ D ∣$ 为样本个数。
特征数越多的特征对应的特征熵越大，它作为分母，可以校正信息增益容易偏向于取值较多的特征的问题。

算法流程同ID3，将信息增益换成信息增益比即可。

CART 算法

ID3算法中我们使用了信息增益来选择特征，信息增益大的优先选择。
C4.5算法中，采用了信息增益比来选择特征，以减少信息增益容易选择特征值多的特征的问题。
CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。【简化了运算，没有那么多对数运算】

具体的，在分类问题中，假设有K个类别，第k个类别的概率为 $p_k$ , 则基尼系数的表达式为：
$Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp^2_k$
对于个给定的样本D,假设有K个类别, 第k个类别的数量为 $C_k$ ,则样本D的基尼系数表达式为：
$Gini(D)=1-\sum_{k=1}^K\frac{|C_k|}{|D|}$

二分类：
$G ini (D) = 2 p (1 - p)$

对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分，则在特征A的条件下，D的基尼系数表达式为：

$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

CART既可以用于分类又可以用来回归，其中对回归树用平方误差最小化准则，对分类树用基尼指数最小化原则，进行特征选择，生成二叉树。下表列出了三种不同决策树算法的差别：
CART生成分类树，是用基尼指数选择最优特征后，生成的二叉树：

具体流程：

输入：训练数据集D、特征集A、阈值
输出：CART决策树T

从根节点出发，进行操作，构建二叉树;

结点处的训练数据集为D，计算现有特征对该数据集的基尼指数，并选择最优特征。

在特征 $A_g$ 下，对其可能取的每个值 $a_g$ ，根据样本点对 $A_g= a_g$ 的测试为“是”或“否”，将D分割成 $D_1$ 和 $D_2$ 两部分，计算 $A_g= a_g$ 时的基尼指数。

选择基尼指数最小的那个值作为该特征下的最优切分点。

计算每个特征下的最优切分点，并比较在最优切分下的每个特征的基尼指数，选择基尼指数最小的那个特征，即最优特征。

根据最优特征与最优切分点，从现结点生成两个子结点，将训练数据集依特征分配到两个子结点中去。

分别对两个子结点递归地调用上述步骤，直至满足停止条件（比如结点中的样本个数小于预定阈值，或样本集的基尼指数小于预定阈值（样本基本属于同一类），或者没有更多特征），即生成CART决策树。

示例：
基尼指数最小的是青年和老年，都可以作为最优划分点，总的年龄这个特征的基尼指数是：0.44，划分点为青年/老年。

有工作这个特征的基尼指数是0.32，只有两个划分，不需要区分划分点了。

有自己房子这个特征的基尼指数：0.27

信贷情况的基尼指数是0.32，以一般为划分点

基尼指数从小到大排序：有自己房子0.27，有工作0.32，信贷情况0.32（一般），年龄0.44（青年/老年），越小的越好分类：

所以以有自己房子开始进行分类：
在没有房子的条件下计算其他特征的基尼指数：
很明显，有工作这个特征它的基尼指数肯定是等于0的，其他基尼指数都大于0，所以选择有工作进行划分：

CART生成回归树：

CART决策树剪枝：

scikit-learn使用

sklearn.tree	介绍
tree.DecisionTreeClassifier	分类树
tree.DecisionTreeRegressor	回归树
tree.export_graphviz	将生成的决策树导出为DOT格式，画图专用
tree.ExtraTreeClassifier	高随机版本的分类树
tree.ExtraTreeRegressor	高随机版本的回归树

分类树

分类树核心代码：

from sklearn import tree #导入需要的模块
clf = tree.DecisionTreeClassifier()     #实例化
clf = clf.fit(X_train,y_train) #用训练集数据训练模型
result = clf.score(X_test,y_test) #导入测试集，从接口中调用需要的信息

DecisionTreeClassifier参数详解：
简单示例：

导入的库

from sklearn import tree  # 决策树
from sklearn.datasets import load_wine # 酒的数据集
from sklearn.model_selection import train_test_split  # 把数据集分成训练集和测试集

打印看看白酒数据集：
可以通过pandas把数据集拼接一起：
把数据集分成训练集和测试集，参数test_size表示测试集的比例

Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data, wine.target, test_size=0.3)

定义模型，开始训练，测试：

clf = tree.DecisionTreeClassifier(criterion='entropy')
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest) # 返回预测的准确度accuracy
score

看一看模型给我们定义的决策树：

feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']

import graphviz
dot_data = tree.export_graphviz(clf, feature_names=feature_name, class_names=['清酒', '雪梨', '贝尔摩德'], filled=True, rounded=True)
graph = graphviz.Source(dot_data)
graph  # graph.view()

注意如果pycharm能显示图片，而jupyter不能，报错找不到graphviz模块，可以试一下下面操作：在jupyter中执行conda install python-graphviz

第一行：划分条件，脯氨酸是否小于760，是往左边走，不是往右边走。
第二行：entropy，信息增益比，越大分类越好，越靠前。当entropy=0时，可以选出类别了。
sample：样本数量。
value：每个类别的数量。
class：类别

决策树并不会选择全部特征可以通过feature_importances_来查看：

scikit-learn在每次分枝时，不从使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分枝用的节点。这样，每次生成的树也就不同了，准确率也不一样，不希望每次结果不一样，需要添加参数random_state来控制随机性：

random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（比如鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=30)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest) #返回预测的准确度
score

splitter也是用来控制决策树中的随机选项的，有两种输入值，输入”best"，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入“random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。

clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=30
                                  ,splitter="random"
                                  )
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)
score

dot_data = tree.export_graphviz(clf
                                ,feature_names= feature_name
                                ,class_names=["琴酒","雪莉","贝尔摩德"]
                                ,filled=True
                                ,rounded=True
                                )
graph = graphviz.Source(dot_data)
graph

随机性增加了，树变深了。

剪枝参数

在不加限制的情况下，一棵决策树会生长到衡量entropy的指标最优，或者没有更多的特征可用为止。这样的决策树往往会过拟合，这就是说，它会在训练集上表现很好，在测试集上却表现糟糕，我们需要使用剪枝参数来防止过拟合。

剪枝策略对决策树的影响巨大，正确的剪枝策略是优化
决策树算法的核心。sklearn为我们提供了不同的剪枝策略：

max_depth
限制树的最大深度，超过设定深度的树枝全部剪掉
这是用得最广泛的剪枝参数，在高维度低样本量时非常有效。决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时，建议从=3开始尝试，看看拟合的效果再决定是否增加设定深度。
min_samples_leaf & min_samples_split 限定叶子节点
min_samples_leaf限定，一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本【对应图中simple值】，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生
一般搭配max_depth使用，在回归树中有神奇的效果，可以让模型变得更加平滑。
这个参数的数量设置得太小会引起过拟合，设置得太大就会阻止模型学习数据。
一般来说，建议从=5开始使用。如果叶节点中含有的样本量变化很大，建议输入浮点数作为样本量的百分比来使用。同时，这个参数可以保证每个叶子的最小尺寸，可以在回归问题中避免低方差，过拟合的叶子节点出现。对于类别不多的分类问题，=1通常就是最佳选择。
min_samples_split限定，一个节点必须要包含至少min_samples_split个训练样本，这个节点才允许被分枝，否则分枝就不会发生。

clf = tree.DecisionTreeClassifier(criterion='entropy'
                                  ,random_state=30
                                  # ,splitter='random'
                                  ,max_depth=3
                                  ,min_samples_leaf=10
                                  ,min_samples_split=10
                                  )
clf = clf.fit(Xtrain, Ytrain)

dot_data = tree.export_graphviz(clf
                                ,feature_names= feature_name
                                ,class_names=["琴酒","雪莉","贝尔摩德"]
                                ,filled=True
                                ,rounded=True
                                )
graph = graphviz.Source(dot_data)
graph

我们对上面的几个参数进行调参，找准确率最高的：

max_features & min_impurity_decrease
一般max_depth使用，用作树的”精修“
max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。和max_depth异曲同工，max_features是用来限制高维度数据的过拟合的剪枝参数，但其方法比较暴力，是直接限制可以使用的特征数量而强行使决策树停下的参数，在不知道决策树中的各个特征的重要性的情况下，强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合，建议使用PCA，ICA或者特征选择模块中的降维算法。
min_impurity_decrease限制信息增益的大小，信息增益小于设定数值的分枝不会发生。

确认最优的剪枝参数
使用确定超参数的曲线来进行判断了，继续使用我们已经训练好的决策树模型clf。超参数的学习曲线，是一条以超参数的取值为横坐标，模型的度量指标为纵坐标的曲线，它是用来衡量不同超参数取值下模型的表现的线。在我们建好的决策树里，我们的模型度量指标就是score。

以 max_depth为例：

import matplotlib.pyplot as plt
test = []
for i in range(10):
    clf = tree.DecisionTreeClassifier(max_depth=i+1
                                      ,criterion="entropy"
                                      ,random_state=30
                                      ,splitter="random"
                                      )
    clf = clf.fit(Xtrain, Ytrain)
    score = clf.score(Xtest, Ytest)
    test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()

可以看到max_depth=4时，准确度最高。

class_weight & min_weight_fraction_leaf 【控制目标权重】
完成样本标签平衡的参数。样本不平衡是指在一组数据集中，标签的一类天生占有很大的比例。比如说，在银行要判断“一个办了信用卡的人是否会违约”，就是是vs否（1%：99%）的比例。这种分类状况下，即便模型什么也不做，全把结果预测成“否”，正确率也能有99%。因此我们要使用class_weight参数对样本标签进行一定的均衡，给少量的标签更多的权重，让模型更偏向少数类，向捕获少数类的方向建模。该参数默认None，此模式表示自动给与数据集中的所有标签相同的权重。
有了权重之后，样本量就不再是单纯地记录数目，而是受输入的权重影响了，因此这时候剪枝，就需要搭配min_weight_fraction_leaf这个基于权重的剪枝参数来使用。另请注意，基于权重的剪枝参数（例如min_weight_fraction_leaf）将比不知道样本权重的标准（比如min_samples_leaf）更少偏向主导类。如果样本是加权的，则使用基于权重的预修剪标准来更容易优化树结构，这确保叶节点至少包含样本权重的总和的一小部分。

重要属性和接口

属性是在模型训练之后，能够调用查看的模型的各种性质。对决策树来说，最重要的是feature_importances_，能够查看各个特征对模型的重要性。

决策树最常用的接口：

fit
score
apply
predict

#apply返回每个测试样本所在的叶子节点的索引
clf.apply(Xtest)
#predict返回每个测试样本的分类/回归结果
clf.predict(Xtest)

回归树

DecisionTreeRegressor几乎所有参数，属性及接口都和分类树一模一样。需要注意的是，在回归树种，没有标签分布是否均衡的问题，因此没有class_weight这样的参数。

重要参数，属性及接口

criterion
回归树衡量分枝质量的指标，支持的标准有三种：
1）输入"mse"使用均方误差mean squared error(MSE)，父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失
2）输入“friedman_mse”使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差
3）输入"mae"使用绝对平均误差MAE（mean absolute error）
这种指标使用叶节点的中值来最小化L1损失属性中最重要的依然是feature_importances_，
接口依然是apply, fit, predict, score最核心。

交叉验证

交叉验证是用来观察模型的稳定性的一种方法，我们将数据划分为n份，依次使用其中一份作为测试集，其他n-1份作为训练集，多次计算模型的精确性来评估模型的平均准确程度。训练集和测试集的划分会干扰模型的结果，因此用交叉验证n次的结果求出的平均值，是对模型效果的一个更好的度量。

代码示例

from sklearn.datasets import load_boston  # 波士顿房价数据集
from sklearn.model_selection import cross_val_score # 交叉验证
from sklearn.tree import DecisionTreeRegressor # 回归树
boston = load_boston()
regressor = DecisionTreeRegressor(random_state=0)
cross_val_score(regressor, boston.data, boston.target, cv=10, 
                scoring = "neg_mean_squared_error") # 均方误差

一维回归的图像绘制

import numpy as np
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt

rng = np.random.RandomState(1)
X = np.sort(5 * rng.rand(80,1), axis=0) # 创建80个（0，1）的随机数，扩大五倍，排序
y = np.sin(X).ravel()  # 降维ravel
y[::5] += 3 * (0.5 - rng.rand(16)) # 每个5个数，制造一个噪声

regr_1 = DecisionTreeRegressor(max_depth=2) # 模型1
regr_2 = DecisionTreeRegressor(max_depth=5) # 模型2
regr_1.fit(X, y) # 模型1训练
regr_2.fit(X, y) # 模型2训练

X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis] # 创建一组测试集 np.newaxis 增维
y_1 = regr_1.predict(X_test) # 预测 模型1
y_2 = regr_2.predict(X_test) # 预测 模型2

plt.figure() # 画布
plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data") # 散点图
plt.plot(X_test, y_1, color="cornflowerblue",label="max_depth=2", linewidth=2) # 回归预测图1
plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2) # 回归预测图2
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

如果树的最大深度（由max_depth参数控制）设置得太高，则决策树学习得太精细，它从训练数据中学了很多细节，包括噪声得呈现，从而使模型偏离真实的正弦曲线，形成过拟合。

你可能感兴趣的:(机器学习,机器学习,决策树,scikit-learn)

awesome python 中文版相见恨晚！(pythonNB的第三方资源库) weixin_30788731
AwesomePython中文版来啦！原文链接：Python资源大全内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。GitHub-jobbole/awesome-python-cn:Python资源大全中文版环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单
【机器学习】决策树 ( Decision Tree ) AI天才研究院 ChatGPT DeepSeek R1 &大数据AI人工智能大模型深度学习实战机器学习决策树算法支持向量机人工智能
【机器学习】决策树(DecisionTree)文章目录【机器学习】决策树(DecisionTree)1.ID3(1)信息增益(2)ID3的算法流程(3)实现ID32.C4.53.CART(1)决策桩DecisionStump(2)回归CART：最小二乘回归树leastsquaresregressiontree⚪回归CART的例子(3)分类CART(4)处理缺失值Handlemissingfeatu
机器学习-随机森林解析 Mr终游机器学习机器学习随机森林人工智能
目录一、.随机森林的思想二、随机森林构建步骤1.自助采样2.特征随机选择3构建决策树4.集成预测三.随机森林的关键优势**(1)减少过拟合****(2)高效并行化****(3)特征重要性评估****(4)耐抗噪声**四.随机森林的优缺点优点缺点五.参数调优（以scikit-learn为例）波士顿房价预测一、.随机森林的思想1.通过组成多个弱学习器（决策树）形成一个学习器2.多样性增强：每颗决策树通
深度学习笔记——基础部分肆—— 深度学习深度学习笔记人工智能 python pytorch
深度学习是一种机器学习的方式，通过模仿人脑吃力信息的方式，使用多层神经网络来学习数据的复杂模式和特征。深度学习和机器学习的区别：在机器学习中，特征提取通常需要人工设计和选择，依赖于领域专家的知识来确定哪些特征对模型最为重要;而在深度学习中，特征提取是自动进行的，通过多层神经网络结构直接从原始数据(也可能需要初步处理)中学习复杂特征，减少了对人工干预的依赖，使得模型能够处理更加复杂的数据和任务。计算
机器学习基础（4） yyc_audio 深度学习 python 机器学习神经网络人工智能
超越基于常识的基准除了不同的评估方法，还应该利用基于常识的基准。训练深度学习模型就好比在平行世界里按下发射火箭的按钮，你听不到也看不到。你无法观察流形学习过程，它发生在数千维空间中，即使投影到三维空间中，你也无法解释它。唯一的反馈信号就是验证指标，就像隐形火箭的高度计。特别重要的是，我们需要知道火箭是否离开了地面。发射地点的海拔高度是多少？模型似乎有15%的精度——这算是很好吗？在开始处理一个数据
机器学习｜决策树｜Gini指数和熵的区别｜简单示例漂亮_大男孩机器学习决策树人工智能
如是我闻：在决策树模型中，Gini指数和熵（Entropy）是用来计算节点纯度的两种方法。它们都是评估分裂点的好坏，以选择最佳的属性来分裂。让我们先来了解一下这两种方法的定义，然后通过一个简单的例子来讨论它们之间的区别。Gini指数Gini指数是一个衡量数据分布不均匀程度的指标。在决策树中，它用于评估数据集的不纯度。Gini指数越低，数据的纯度越高。其计算公式为：Gini=1−∑i=1npi2Gi
00计算机视觉学习内容依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉（ComputerVision）开发需要掌握数学基础、编程语言、图像处理、机器学习、深度学习等多个方面的知识。以下是一个系统的学习路线：1️⃣数学基础（核心理论支撑）计算机视觉涉及很多数学概念，以下是必备数学知识：✅线性代数（矩阵运算是计算机视觉的核心）向量、矩阵运算（加减、乘法、转置）特征值与特征向量SVD（奇异值分解），用于图像压缩、降维齐次坐标变换（用于3D计算机视觉）✅概率统计（
01计算机视觉学习计划依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉系统学习计划（3-6个月）本计划按照数学→编程→图像处理→机器学习→深度学习→3D视觉→项目实战的顺序，确保从基础到高级，结合理论和实践。第一阶段（第1-2个月）：基础夯实✅目标：掌握数学基础、Python/C++编程、基本图像处理1️⃣数学基础（2周）每日2小时线性代数：矩阵运算、特征值分解（推荐《线性代数及其应用》）概率统计：高斯分布、贝叶斯定理微积分：偏导数、梯度下降傅里叶变换：图
决策树 vs 神经网络：何时使用？ HP-Succinum 机器学习决策树神经网络算法
目录1.决策树（DecisionTrees）1.1特点1.2优点1.3缺点1.4适用场景2.神经网络（NeuralNetworks）2.1特点2.2优点2.3缺点2.4适用场景3.何时选择哪种方法？4.结合使用的可能性5.总结在机器学习领域，决策树（DecisionTrees）和神经网络（NeuralNetworks）是两种常见但风格截然不同的算法。它们各自适用于不同类型的问题，本文将介绍它们的特
使用 Dlib 库进行人脸检测和人脸识别萧鼎 python基础到进阶教程计算机视觉人工智能 python 人脸识别人脸检测
使用Dlib库进行人脸检测和人脸识别什么是Dlib？Dlib是一个广泛使用的C++库，提供了多种用于机器学习和计算机视觉的工具。它包含了人脸检测、人脸识别、物体检测、图像处理等功能。Dlib具有高效、易用的Python接口，因此它也被广泛应用于Python中进行深度学习和计算机视觉任务。安装Dlib首先，我们需要在Python环境中安装Dlib库。你可以通过pip进行安装：pipinstalldl
介绍常见的图片分类模型与算法萧鼎 python基础到进阶教程算法分类数据挖掘
介绍常见的图片分类模型与算法在机器学习和深度学习的领域中，图片分类任务是一个广泛的应用场景。随着深度学习技术的飞速发展，很多强大的图像分类算法和模型已经被提出，广泛应用于从医疗影像到自动驾驶、从人脸识别到图像检索等多个领域。本文将重点介绍多种用于图像分类的经典算法与模型，帮助你了解在图像分类任务中常用的技术。1.传统机器学习模型在深度学习崭露头角之前，传统的机器学习模型是图像分类的主流方法。这些模
量化投资与算法交易 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介量化投资（Quantitativeinvestment）和算法交易（AlgorithmicTrading），两者是近几年兴起的两个热门词汇。市场对这两个词汇的认识也是逐渐加深。在过去几年里，人们普遍认为，算法交易和机器学习结合是未来股票、期货等金融产品的必然趋势。机器学习是由多个数据源（如财务报表、交易历史数据、社交网络数据等）自动分析生成的模型，能够预测出股价
Unity AI 技术浅析（二）爱研究的小牛 AIGC—游戏制作 AIGC—虚拟现实 unity 人工智能游戏引擎 AIGC 机器学习深度学习
UnityAI是Unity引擎中集成的智能技术，旨在为游戏开发者、虚拟现实（VR）和增强现实（AR）应用开发者提供强大的AI工具和功能。UnityAI涵盖了从智能代理（Agents）、机器学习（MachineLearning）到自然语言处理（NLP）等多个领域。一、UnityAI的工作原理1.智能代理（Agents）UnityAI的核心之一是智能代理（Agents），这些代理可以模拟游戏中的非玩家
Paper Reading | AI & 数据库融合经典论文回顾数据库人工智能阅读
人工智能（AI）和数据库（DB）在过去的50年里得到了广泛的研究，随着数据库近年来的不断发展，数据库开始与人工智能结合，数据库和人工智能（AI）可以相互促进。一方面，AI可以使数据库更加智能化（AI4DB）。例如，传统的数据库优化技术无法满足大规模数据库实例、各种应用程序和多样化用户的高性能要求，尤其是在云上。幸运的是，基于机器学习的技术可以缓解这个问题。另一方面，数据库技术可以优化AI模型（DB
2024年Python最新蓝桥杯基础练习全解答案+解析共17题 python，三年经验Python开发面经总结 2401_84139963 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
机器学习——使用分类特征的一种独热编码，小卷心菜. 机器学习人工智能
在我们目前看到的例子中，每个特性只能具有两个可能的值中的一个，耳朵形状不是尖的就是软的，脸型不是圆就是不圆，胡须不是存在就是不存在，但是如果特性可以具有两个以上的离散值呢？如何使用一个热编码来解决这样的特性？下图是我们宠物收养中心申请的新培训集，所有的数据都是一样的，除了耳形特征有尖软之外还有椭圆形，所以这个特征仍然是一个分类值特征，但它可以有三个可能的值，而不仅仅是两个可能的值，这意味着当你在这
深度学习的数学之魂：传统机器学习的超越者洋葱蚯蚓机器学习深度学习机器学习人工智能经验分享个人开发数据挖掘
深度学习的数学之魂：传统机器学习的超越者前言第一部分：神经元的数学语言1.1神经元模型的启示1.2激活函数的非线性魔法第二部分：网络结构的层次之美2.1网络结构的多样性2.2层次结构的力量第三部分：图像的力量与直观理解3.1图表与动图的辅助作用3.2直观理解的桥梁第四部分：深度与专业的对话4.1深度学习与传统机器学习的比较4.2专业性强的技术分析第五部分：数学原理的深度剖析5.1神经网络的数学表达
机器学习与深度学习里生成模型和判别模型的理解程序员羊羊机器学习深度学习人工智能 php 学习 chatgpt 前端
两个模型是啥我们从几句话进入这两个概念：1、机器学习分为有监督的机器学习和无监督的机器学习；2、有监督的机器学习就是已知训练集数据的类别情况来训练分类器，无监督的机器学习就是不知道训练集的类别情况来训练分类器；3、所以说，有监督的机器学习可以抽象为一个分类task，而无监督的基本完成的是聚类；4、有监督的机器学习中，我们可以概述为通过很多有标记的数据，训练出一个模型，然后利用这个，对输入的X进行预
计算机视觉 vs 机器视觉 | 机器学习 vs 深度学习：核心差异与行业启示程序员Linc 计算机视觉计算机视觉机器学习深度学习机器视觉
一、计算机视觉（CV）与机器视觉（MV）：从学术研究到工业落地的分水岭1.定义与目标差异计算机视觉（CV）目标是赋予计算机类似人类的视觉理解能力，通过算法对图像或视频中的目标进行识别、跟踪和语义理解。其核心是研究如何从二维图像反推三维世界的结构和规律。例如，自动驾驶中通过多摄像头融合实现道路场景理解，属于典型的CV任务。机器视觉（MV）聚焦于工业场景的自动化检测与控制，强调实时性和精准性。MV系统
学生行为习惯画像可视分析平台 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
学生行为习惯，画像分析，可视化，机器学习，数据挖掘，教育科技1.背景介绍随着教育信息化进程的不断加速，海量教育数据正在被生成和积累。这些数据蕴含着丰富的学生行为信息，例如学习时间、学习内容、学习方式、学习效果等。有效挖掘和分析这些数据，能够帮助教育工作者深入了解学生的学习习惯和行为模式，从而为个性化教学、精准指导和学习效果提升提供重要支撑。然而，传统的教育数据分析方法往往局限于简单的统计描述，难以
蚂蚁集团可转正实习算法岗内推-自然语言飞300 业界资讯自然语言处理
具备极佳的工程实现能力，精通C/C++、Java、Pvthon、Perl等至少一门语言:对目前主流的深度学习平台:tensorflow、pytorch、mxnet等，至少对其中一个有上手经验;熟悉深度学习以及常见机器学习算法的原理与算法，能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题，有大数据处理的实战经验;有强烈求知欲，对人工智能领域相关技术有热情，内推链接：https://u.ali
深圳传音控股AI算法岗内推飞300 人工智能 python java 业界资讯
1扎实的数学基础，熟练掌握机器学习相关的数学知识。2熟悉常用的机器学习算法，掌握常用的深度学习模型与编程实践。3熟悉Pytorch或TensorFlow等深度学习框架，有一定项目经验。4良好的沟通协调能力，执着的专业精神。5参与部门AI创新项目，包括自动化测试平台、BPM流程管理等项目开发登录链接：transsion.zhiye.com/campus/jobs填写我的推荐码：EVHPB3投递，简历
基于NLP的客户意见分析：从数据到洞察 Echo_Wish Python 算法 Python 笔记自然语言处理人工智能
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
AdaBoost算法 Mr终游机器学习算法决策树
目录一、核心原理：二、算法步骤三、关键优势：四.局限与解决五、代码示例（鸢尾花数据集）AdaBoost（AdaptiveBoosting）是一种经典的集成学习算法，通过组合多个弱分类器（如决策树）来构建强分类器。其核心思想是通过迭代优化残差（错误）和动态调整样本权重，逐步提升模型性能。以下是对AdaBoost的简明总结和关键要点：一、核心原理：提升法：通过顺序训练多个弱分类器，每轮专注修正前一个模
R语言机器学习系列-随机森林回归代码解读 Mrrunsen R语言大学作业机器学习回归 r语言
回归问题指的是因变量或者被预测变量是连续性变量的情形，比如预测身高体重的具体数值是多少的情形。整个代码大致可以分为包、数据、模型、预测评估4个部分，接下来逐一解读。1、包部分，也就是加载各类包，包括随机森林包randomForest，数据相关包tidyverse、skimr、DataExplorer，模型评估包caret。2、数据部分，主要是读取数据，处理缺失值，转换变量类型。3、模型部分。为了对
神经网络ＶＳ决策树 Persistence is gold 神经网络决策树人工智能
神经网络（NeuralNetworks）和决策树（DecisionTrees）是两种不同的机器学习算法，各自具有独特的优点和适用场景。以下是它们的详细比较：神经网络优点:强大的学习能力:神经网络，尤其是深度神经网络，能够自动学习数据中的复杂特征，可以处理高维和非线性的问题。适用性广泛:神经网络适用于分类、回归、图像处理、语音识别、自然语言处理等多种任务。多层结构:通过增加隐藏层，神经网络可以逐层提
深度神经网络——决策树的实现与剪枝知来者逆人工智能 dnn 决策树人工智能神经网络深度学习机器学习
概述决策树是一种有用的机器学习算法，用于回归和分类任务。“决策树”这个名字来源于这样一个事实：算法不断地将数据集划分为越来越小的部分，直到数据被划分为单个实例，然后对实例进行分类。如果您要可视化算法的结果，类别的划分方式将类似于一棵树和许多叶子。这是决策树的快速定义，但让我们深入了解决策树的工作原理。更好地了解决策树的运作方式及其用例，将帮助您了解何时在机器学习项目中使用它们。决策树的结构决策树的
【Gaussian Model】高斯分布模型 HP-Succinum 机器学习机器学习算法人工智能
目录高斯分布模型用于异常检测（GaussianModelforAnomalyDetection）1.高斯分布简介2.高斯分布模型用于异常检测(1)训练阶段：估计数据分布(2)检测阶段：计算概率判断异常点3.示例代码4.高斯分布异常检测的优缺点优点缺点5.适用场景6.结论高斯分布模型用于异常检测（GaussianModelforAnomalyDetection）在数据分析和机器学习任务中，异常检测（
深入浅出地理解-随机森林与XGBoost模型 HP-Succinum 机器学习随机森林集成学习机器学习
目录一、决策树的不足与集成学习的优势1.1决策树的缺点1.2集成学习：通过集成多个模型提升稳定性二、随机森林：通过多棵决策树减少方差2.1随机森林的基本原理2.2随机森林的优势2.3随机森林的参数调整三、XGBoost：高效且强大的Boosting方法3.1Boosting的基本原理3.2XGBoost的优化3.3XGBoost的优点四、随机森林与XGBoost的对比五、总结在机器学习的实战中，决
芯科科技通过全新并发多协议SoC重新定义智能家居连接电子科技圈 Silicon Labs 智能家居边缘计算 mcu 物联网 iot 人工智能机器学习
MG26系列SoC现已全面供货，为开发人员提供最高性能和人工智能/机器学习功能致力于以安全、智能无线连接技术，建立更互联世界的全球领导厂商SiliconLabs（亦称“芯科科技”，NASDAQ：SLAB），日前宣布其MG26系列无线片上系统（SoC）现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案，MG26SoC的闪存和RAM容量是芯科科技
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文