晓亮.

【机器学习】什么是决策树模型？如何去构建决策树？何时使用决策树？何时使用神经网络？

系列文章目录

第十三章 Python 机器学习入门之决策树

系列文章目录

前言

一、决策树模型

1 什么是决策树模型？

2 决策树学习的过程

二、如何确定在节点使用的特征

1 熵的定义

2 什么是信息增益？

3 利用信息增益来看看构建决策树的整个过程

三、独热编码one-hot

1 什么是one-hot

2 one-hot 在决策树中的应用

四、回归树

五、使用多个决策树

1 为什么要使用树集合

2 有放回抽样

3 随机森林算法

4 XG Boost 算法

六、何时使用决策树

总结

前言

本文从决策树出发，

第一部分讲解了什么是决策树模型，了解了一些决策树的基本概念；

第二部分提到了如何确定在决策树节点使用什么特征，其中介绍了熵的概念、什么是信息增益，以及如何使用信息增益去构建决策树；

第三部分讲到了独热编码，以及在决策树中的应用；

第四部分讲了如何使用决策树解决回归问题；

第五部分介绍了如何使用多个决策树，其中提到了有放回抽样、随机森林算法、xgboost算法；

第六部分重点讲了什么时候去使用决策树，将决策树与神经网络做了个比较。

一、决策树模型

1 什么是决策树模型？

决策树模型 Decision tree model

我们以猫分类为例，构建一个神经网络模型，

如图，我们有3个输入特征，输出标签0或1，这是一个二元分类问题。

输入的特征X 采用分类值，也就是说，这些特征值只取几个值，第一个特征形状要么是尖的，要么是松软的；脸型要么是圆的，要么不是圆的；胡须要么有，要么没有。

那么，什么是决策树呢？

图中每个圆形或方形的框都称为决策树中的一个节点，该模型的工作原理就是，当我们有一个新的测试示例（耳朵尖尖的，圆脸，有胡须），我们会从树的最顶层节点处开始向下；耳朵是圆的，所以向左left边走，也就是左下方的分支；在查看脸型，因为是圆脸，使用继续向左下方运行，最后得出结论，这是一只猫。当我们到达最后一个节点，系统就会根据结果预测这是只猫。

决策树中的最顶层的节点称为根节点；所有椭圆形的节点，也就是除了最底层的矩形框外，都称为决策节点；最底层的矩形框称为叶子节点。

2 决策树学习的过程

还是以识别猫为例

决策树学习的第一步就是确定我们在根节点使用什么特征（假设我们选择了耳朵形状特征），也就意味着，我们会根据耳朵的形状来差分所有的输出图片，如图，我们有10个输入的例子，结果将耳朵尖的5个例子分到左边，耳朵松软的5个例子分到右边；

第二步是在决策节点处选择要使用的特征（假设使用面部形状特征），

决策树的左边五个例子中，4个被分到圆脸的左边，1个被分到不是圆脸的右边，我们观察会发现左边的4个例子都是猫，所以不用继续预测了，就创建一个叶节点。右边的1个例子不是猫，所以可以给它一个节点不是猫；

决策树的左边五个例子中，假设我们在决策节点处选择使用是否有胡须的特征进行分类，1个被分到有胡须的左边，4个被分到无胡须的右边，我们观察会发现左边的1个例子都是猫，所以不用继续预测了，就创建一个叶节点。右边的4个例子不是猫，所以可以给它一个节点不是猫

以上，就是构建决策树算法的过程了。

在这些过程中，我们每个决策节点都做出了判断，让我们来看看每个关键的决定是什么。

我们在每个特征节点都使用了特征进行分类，那么如何知道在哪一个节点使用哪一个特征呢？

我们一般是根据哪一个特征在这一次分类中，可以使得分类的纯度最大，这里第一个特征选择耳朵形状会使得纯度最大。（文章下面会说到什么是纯度）

所以在决策树学习时，我们做的第一步就是决定选择哪个特征；

第二个关键的决定就是何时停止使用特征进行分类，也就是何时停止拆分。我们刚才使用的标准是确定了100%是猫或者不是猫才停止拆分。除此之外，我们可以在分裂没有进一步的结果导致树超过最大深度。树的最大深度时可以人为设定的一个参数；

在决策树中，节点的深度定义为跳数，从表示最顶部的根节点到特点节点所需的时间，

根节点所在的位置是depth 0，如果我们设定决策树最大深度为2.那么它在depth 2就会输出结果，将不会拆分此级别以下的任何节点，这时决策树永远也不会到达深度3。

限制决策树的深度，是为了不让决策树变得太大、太笨重；其次，保持决策树很小，它也不容易过度拟合

这是我们决定停止拆分决策树的一个原因。

另一个原因是，优先级分数的改进（后面会说到），就是如果拆分后得到的收益太小，由于要尽量保持决策树较小，我们也会考虑停止拆分。

还有就是，如果某个节点示例数低于某个阈值，我们也可能会停止分裂。

二、如何确定在节点使用的特征

1 熵的定义

我们一般会使用熵来衡量一组示例的纯度

先来看一下熵的定义：熵就是衡量一组数据是否不纯的指标。

例如给定一个例子，有3只猫、3只狗。我们如果将p_1定义为猫样本的比例，也就是标签为1占的比例

这个例子中p_1=3/6

我们将建立如图所示的函数来表示熵，熵函数通常表示为H，这里横轴为p_1值，纵轴为熵的值

这里p_1 = 0.5 时，熵的值H(p_1)=1

如果我们的数据集里全是猫，或都不是猫时，熵的值为0

可以看见图中下面一个例子，有5只猫和1只狗，此时正例p_1 = 5/6 = 0.8333 ，熵的值H(p_1)大约为0.65

下面来看看熵H(p_1)的实际方程

如图，如果p_1=p_0 时，也就是取0.5，这时熵函数H取得最大值1

2 什么是信息增益？

在构建决策树时，我们将决定在节点上拆分什么样的特征取决于选择什么样的特征可以最大程度的减小熵，或最大化纯度。

在决策树学习中，熵的减少称为信息增益，下面我们来看看如何来计算信息增益，来决定要在决策树上每个支点上选择什么特征进行拆分。

以在根节点选择什么特征来进行拆分为例，

如图，如果以耳朵是尖还是软的为特征，拆分结果左边5个中有4个是猫，右边5个中有1个是猫，概率分别为0.8和0.2. 如果应用熵公式，那么左边的杂质是熵0.72，右边的熵也是0.72。

如果以脸是圆的和不是圆的为特征，拆分结果左边7个中有4个是猫，右边3个中有1个是猫，概率分别为0.57和0.33. 如果应用熵公式，那么左边的杂质是熵0.99，右边的熵也是0.92，所以左右节点的杂质程度比前一个要高得多。

如果以有没有胡须为特征，拆分结果左边4个中有3个是猫，右边6个中有2个是猫，概率分别为0.75和0.33. 如果应用熵公式，那么左边的杂质是熵0.81，右边的熵也是0.92.

我们需要做的就是对比这3个特征，找出哪一个特征在根节点使用的效果最好。

事实证明可以对这些计算出来的熵值进行加权平均，然后在做比较。

还从头开始，第一个，我们10个例子中有5个去了左分支，5个去了右分支，那么我们就可以直接计算加权平均值，如图，依次类推，其他的特征计算也是一样的。3个加权平均值最小的哪个就是我们需要的那个特征。

但是这样并不准确，在构建决策树的方式中，我们实际上要对这些公式在决策数构建中遵循惯例，除了计算这个加权平均熵，我们需要将计算熵的减少与我们没有进行分裂的情况相比较。

我们回到上面的例子，没有进行分裂时，10个中有5只猫，p_1=0.5, 根节点的熵实际上等于1，这时纯度最高，我们实际上用于拆分的公式如图

计算出来的0.28、0.03、0.12这些被称为信息增益。它衡量的是熵的减少。

随这决策树的不断分裂，经过不断的拆分，我们最终会得到较低的熵值

这两个值之间的差异，就是熵的减少

为什么我们要计算熵的减少而不仅仅是左右分支的熵呢？

因为决定何时停止或不停止分裂的标准之一，如果熵的减少太小，则需要进一步拆分。

在这种情况下，我们可以选择熵减少的较多的结果进行拆分，因为一直拆分会有过度拟合的风险。

信息增益的一般公式

3 利用信息增益来看看构建决策树的整个过程

信息增益标准让我们决定如何去选择一个特征来分割一个节点，

回过头来看看怎么构建决策树，以猫狗分类为例，

我们从根节点开始，首先计算所有的3个特征的信息增益，发现耳朵形状的信息增益最大，也就是说耳朵形状就是最好的分裂特征，所以我们在根节点使用耳朵形状作为特征。

随后，我们创建一个左支行和右支行，并将数据集按照特征进行分类。

我们先看左边的5个数据子集，是否符合停止分裂的标准（节点中的所有东西都属于一个类）

很明显不符合停止分裂的标准，所以我们要选择拆分的特征，计算每个特征的信息增益，发现脸型的特征信息增益最大，所以我们选择脸型特征进行拆分，然后建立左右分支，进行拆分

我们还是先看左边分支，4个全是猫，所以我们停止拆分，建立一个预测猫的叶节点。

同样右边是一只狗，我们停止拆散，建立一个不是猫的叶节点。

在构建了左边的决策树后，我们来看看右边的，步骤也是同样的。

注意，当我们在根节点决定使用上面特征进行拆分后，我们构建左子树的方法是在5个示例的子集上构建决策树，构建右子树的方法是再次在5个示例的子集上构建决策树。

在计算机科学中，这是递归算法的一个例子，也就是说，我们在根部构建决策树的方式是在左右支行上再构建其他较小的决策树。

计算机科学中的递归算法是指编写调用自身的代码，这在构建决策树上出现的方式是我们通过构建整个决策树较小的子决策树，然后把它们放在一起。

三、独热编码one-hot

1 什么是one-hot

在目前学习的特征中都是只有两个离散值的，像猫的脸是圆的或者不是圆的、有胡须或没有胡须等。

如果特征可以采用两个以上的离散值呢？我们可以使用one-hot 编码解决这种特征。

还是以猫狗分类为例，猫的耳朵有3种类型了，尖的、软的或椭圆形的。

初始特征仍然是一个分类值特征，但它可以采用3个可能的值，如果在决策树支点使用这个特征，那么我们就会创建3个子分支。这里有一种处理特征不同的方式，使用one-hot 编码，将这一个特征，变成3个特征。

如图，使用one-hot 编码，我们将创建3个新的特征，分别是耳朵是尖的、耳朵是松软的、耳朵是椭圆的。

对于第一个示例，我们之前说耳朵形状是尖尖的，现在我们说这种动物耳朵是尖的值为1、耳朵是松软的值为0、耳朵是椭圆的值为0，以此类推，其他的示例也这样写。

我们现在就是构建了3个新特征，而不是1个特征取3个可能的值，每个特征都可以取两个可能的值0或1。

更详细一点，如果一个分类特征可以取k个可能的值，我们可以创建k个二进制特征（可以取的可能值为0或1）来实现.

在之前的例子中，我们训练决策树使用one-hot 编码来进行建模编码分类特征也适用于训练神经网络。

如果我们将脸型和胡须的特征也用0或1 来表示，这样我们就有3个可能的耳朵形状值，1个可能的脸型值和1个可能的胡须值这5个特征列表。

这5个特征列表可以输入到新网络或者逻辑回归中，来训练猫分类器。

所以one-hot编码时一种不仅仅适用于决策树学习的技术，它允许我们使用0或1对分类特征进行编码，一边它可以作为输入馈送到神经网络，也可以将数字作为输入。可以用于新的网络或线性回归或逻辑回归训练。

2 one-hot 在决策树中的应用

我们现在已经会使用一些离散的特征了。

让我们来看看如何修改决策树，使其可以使用连续值的特征（可以是任意数字的特征，不仅仅是0或1）。

如果我们给猫狗分类的例子加了一个重量特征，它是一个连续值的特征，那我们怎么分割这个重量特征呢？

我们可以根据重量是否大于或对于某个值，比如说数字8，然后我们画一条直线，将例子分裂，计算两边的信息增益，选出信息增益最大的一个。

我们一般会尝试x 轴上的多个值，一种惯例是根据权重或根据该特征的值对所有示例进行排序，并取所有训练排序列表之间的中点值，以此处作为阈值考虑值的示例。

如果我们有10个训练示例，我们将针对此阈值测试9个不同的可能值，然后尝试选择可以为我们提供最高信息增益的那个值，它就是连续值的特征。

这里，我们当值为9时，信息增益最大为0.61，假设算法选择这个特征来分割，我们最终会得到两个子集，

然后可以使用递归构建额外的决策树，这两个子集就用来构建树的其他部分。

四、回归树

我们目前只学习了作为分类算法的决策树，如果我们有一个回归问题，我们如何使用决策树来预测数字。

其实决策树可以泛化处理回归问题。

假设我们要使用下图中的3个特征来预测猫或狗的重量，来看看怎么使用决策树进行预测数字。

与前面不同，这里我们不是预测动物是猫还是狗，我们的输出目标是一个数字。

首先，我们还是要构建一个决策树，我们将动物分好类了，如何输出权重呢？

如图，输入示例会跟随决策节点，一直到叶节点，如何预测该值（图中红色部分），我们是取每个叶节点示例的权重的平均值作为输出值。这种决策树称为回归树。

让我们回推，来看看每个节点是如何确定所用的特征的。

首先看根节点，我们分别看看3个特征的分类结果，那么怎么确定使用哪一个特征呢？

让我们一个个的看，一般我们会先计算左边分裂的方差，然后计算右边分类的方差；再写出左右分支数量的占比；如何计算加权平均方差，如图。

这个和我们在决定使用什么分割时使用的加权平均熵的作用非常相似。

然后我们继续对其他的特征计算这个加权平均方差。

在回归树中，选择拆分的一个好办法时只选择最低的加权平均方差值。

类似于我们计算信息增益（其实就是熵的减少），所以我们也可以进一步计算方差的减少，拿根节点的方差20.51 减去其他的，如图。

结果如图，第一个结果的方差减少的最多，所以它就是我们需要的特征。

五、使用多个决策树

1 为什么要使用树集合

单个决策树的缺点之一是该决策树可能对数据中的微小变化高度敏感，

为了解决这个问题，我们通常构建多个决策树，称之为树集合。

来举例说明，如图，我们之前在根节点处使用的特征是耳朵的形状，它具有最高的信息增益。

如果我们将数据集中的一个狗改成猫呢？在这个根节点的使用的特征就会改变为是否有胡须，因为这个特征现在具有最高信息增益。

这就是为什么说单个决策树可能对数据中的微小变化高度敏感，

改变一个训练示例就会使得算法有所改变，显然这个算法不那么稳定。

所以我们通常会训练多个决策树来解决这个问题，也就是训练一个树集合。

当我们有一个树集合，那么每一个决策树都可能是一种对猫或不是猫进行分类的合理方法。

如果我们有一个新的示例想要进行预测，那我们要做的就是在新示例上运行所有的决策树（图中是3个）

让它们共同决定哪个是最终预测结果，3个决策树都对新示例进行了预测，其中2个预测是猫，一个不是，3个决策树“投票”，结果是猫的可能性较大，所以预测结果就是猫。

2 有放回抽样

为了构建树集合，我们需要一种技术，称为有放回抽样。

如果有10个训练示例放在一个箱子里，每次取样都是随机拿出一个样本，再放回，再随机拿出一个样本，直到我们拿到10个样本，这其中可能有重复的，这个训练集也可能不包括10个原始的训练示例。这就是带有替换程序的抽样的一部分。

带放回抽样，可以让我们构建一个新的训练集，这是构建树集合的关键。

3 随机森林算法

现在我们有了一种使用替换的方法来创建新的训练集，这些训练集有点类似于原始的数据集，但是也有些不同。

下面来看看如何构建树集成算法，会使用到随机森林算法，它是比使用单个决策树效果更好的示例算法。

如果我们有一个训练集大小为m，我们将使用带放回抽样，创建一个大小为M的新训练集（有些是重复的没有关系）。

然后在新的数据集上训练决策树，这样我们就会得到一个决策树。

然后在使用带放回抽样来生成另一个训练集M，在这个新的数据集上训练决策树，我们会得到另一个决策树。

以此类推，构建出多个决策树（B个，在64-228左右），比如说我们构建了100棵不同的树组成的集合，然后当你试图做出预测时，让这些树共同决定预测结果。事实证明，当训练的决策树太多时，远大于100，它实际上不会取得更好的效果，反而会减慢计算速度，而不会显著提高整体算法。

对于以上的方法，实际上做一点修改，它会工作的更好，也就是将这个算法从反向决策树更改为随机森林算法。

关键思想是，即使我们使用这种带有替换过程的采样，有时我们最终也会在根节点处使用同样的特征进行拆分，在根节点处的分裂也是十分相似的。

对这个算法进行更改，尝试随机化每个节点处的特征选择，这可能导致树集合预测的更准确。

具体做法就是：如果我们有n个特征可以选择，我们会创建一个含有k个特征的随机子集。

当我们在节点要选择特征进行拆分时，我们会在子集k中随机选择一个信息增益最高的特征进行拆分。

如果n很大时，几十或几百时，k值一般会取n的平方根。

4 XG Boost 算法

除了随机森林，还有另一种效果更好的算法，它是一个增强的决策树，一种XG boost 增强决策树的算法。

到目前为止，决策树集成或决策树最常用的方式是一张名为XGBoost的方法，它运行速度快、开源、容易使用，来看看XGBoost是如何运行的。

前面学了反向决策树算法的修改，随机森林，它可以使其工作更好。

这里是我们之前的，给定训练集来调整它们的大小，重复B次。

使用有放回抽样来创建一个大小为M的新训练集，然后在新的训练集上训练决策树。

第一次通过这个循环，我们可以创建一个训练集并训练一个决策树，如图。

我们将查看我们训练出来的决策树，找到那些还可以改进的示例，然后在构建下一个决策树时，我们将更多的关注我们可以做的更好的示例。

不是查看所有训练示例，而是集中在尚未表现良好的示例子集上，并获得新的决策树。

争取在下一个决策树上做得很好，这就是boosting的思路。

如图，当构建了一个决策树后，我们返回到原始数据集，查看所有的10个示例，看看预测结果的准确性。

然后我们会通过有放回抽样来生成另一个包含10个示例的新训练集。

注意，每次我们从这10个例子中挑选一个例子时，都会有更高的机会从上一个决策树预测错误的的例子中挑选一个。

要想实现这个，我们需要通过一个过程，比如刻意学习，将第二个决策树的注意力集中在还可以做的更好的例子上。

并且提升过程将在每次迭代中总共执行B次，我们就会得到一个树集合。

xgboost算法是一种boosting的集成学习算法，是将多个弱学习模型进行组合，从而获得更好的效果，使得组合后的模型有更强的泛化能力。

目前使用最广泛的一种实现提升的方法就是XGBoost ，代表极端梯度提升，它是一个开源算法，非常快速和高效，而且有一个很好的选择默认拆分标准和何时停止拆分的标准。

它的创新之一是内置了正则化以防止过度拟合。

这就是XGBoost算法的使用，左边left是分类问题，右边right是回归问题。

六、何时使用决策树

决策树、树集合与神经网络是非常强大、非常有效的学习算法。

决策树或树集合通常用于表格数据，也称为结构化数据。像房价预测，有房子大小、房间数等多个特征。

决策树或树集合一个优点是它们的训练数据非常快。

神经网络可以处理非结构化数据任务，像图像、视频、音频和文本等。

小型决策树可能是我们可以解释的，可以了解它是如何做出决策的。

如果我们决定使用决策树或树集合，那就有很大可能使用XGBoost 算法来处理大多数应用程序。

对于神经网络，与决策树和树集合相比较，它适用于所有类型的数据，包括表格或结构化数据以及非结构化数据，包括结构化和非结构化组件的混合数据也可以处理。

神经网络通常用于处理非结构化数据任务，像图像、视频、音频和文本等。

对于表格结构化数据，神经网络和决策树都可以解决，而在非结构化数据任务，像图像、视频、音频和文本等问题中，神经网络还是首选。

缺点是神经网络可能比决策树慢。

优点是神经网络可以和迁移学习一起使用，这点非常重要，因为对于许多应用程序，我们只有一小部分数据集，可以使用迁移学习并进行预训练一个更大的数据集。

可以将多个神经网络串联起来，构建一个更大的机器学习系统。因为神经网络输入x后将输出y计算为平滑或连续的函数，即使我们有很多不同的模型，都可以使用梯度下降同时训练它们。对于决策树，一次只能训练一颗决策树。

如果我们正在构建一个由多个机器学习模型协同工作的系统，串联起来训练多个神经网络可能更容易，而不是使用决策树。

总结

本文从决策树出发，第一部分讲解了什么是决策树模型，了解了一些决策树的基本概念；第二部分提到了如何确定在决策树节点使用什么特征，其中介绍了熵的概念、什么是信息增益，以及如何使用信息增益去构建决策树；第三部分讲到了独热编码，以及在决策树中的应用；第四部分讲了如何使用决策树解决回归问题；第五部分介绍了如何使用多个决策树，其中提到了有放回抽样、随机森林算法、xgboost算法；第六部分重点讲了什么时候去使用决策树，讲决策树与神经网络做了个比较。

你可能感兴趣的:(机器学习,python,决策树,神经网络,算法)

关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
python实际应用场景代码 yzx991013 python 前端服务器
1.自动化文件整理importosimportshutildeforganize_downloads_folder():download_path="/Users/YourName/Downloads"#修改为你的下载路径file_types={"Images":[".jpg",".png",".gif"],"Documents":[".pdf",".docx",".txt"],"Videos":
贪心算法之分发饼干努力小子 #刷题（简单难度）#贪心算法
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值gi，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸sj。如果sj>=gi，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。注意：你可以假设胃口值为正。一个小朋友最多只能拥有一块饼干。示例1:输入:[1
JAVA刷Leecode-贪心算法-分配问题-分发饼干搬砖的水鱼 leetcode 算法 java python leetcode 贪心算法
JAVA刷Leecode-贪心算法算法思想分配问题-分发饼干（135，hard)算法思想采用贪心的策略，保证每次操作都是局部最优解，从而最终的结果是全局最优。贪心算法不是对所有问题都能得到整体最优解，选择的贪心策略必须具有无后效性，即某个状态以前的过程不会影响以后的状态，只和当前的状态相关。包括分配问题（455，135）和区间问题（435）；练习：605，452，763，122，406。分配问题-
【贪心算法】1、分发饼干念奕玥【Java】数据结构与算法 java leetcode 贪心算法
贪心算法或贪心思想采用贪心的策略，保证每次操作都是局部最优的，从而使最后得到的结果是全局最优的。可用于解决分配问题e.g.leetcode455分发饼干解题思路：目标：尽可能满足越多数量的孩子。根据目标，可以容易想到，先去满足胃口值小的孩子。为了尽量使饼干可以满足更多的孩子，所以要把饼干尺寸大于等于孩子胃口值的饼干中挑尺寸最小的饼干给孩子。满足了这个孩子之后，再采取同样的策略去考虑剩下的孩子，直到
流浪地球 - 华为OD机试真题(E卷、C++) 什码情况华为od c++算法数据结构面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
贪心算法-455分发饼干工大一只猿贪心算法算法
classSolution{public:intfindContentChildren(vector&g,vector&s){sort(g.begin(),g.end());sort(s.begin(),s.end());intcount=0;inti=g.size()-1;intj=s.size()-1;for(i;i>=0;i--){if(j>=0&&s[j]>=g[i]){j--;count
455. 分发饼干（贪心算法）穿过漫长林径 LeetCode
455.分发饼干题目描述：有一群孩子和一堆饼干，每个孩子有一个饥饿度，每个饼干都有一个大小。每个孩子只能吃一个饼干，且只有饼干的大小不小于孩子的饥饿度时，这个孩子才能吃饱。求解最多有多少孩子可以吃饱。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:你有三个孩子和两块小饼干，3个孩子的胃口值分别是：1,2,3。虽然你有两块小饼干，由于他们的尺寸都是1，你只能让胃口值是1的孩子满足。所以
贪心算法：分发饼干 AlphaFinance 求职面试
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:
2021-11-12 455. 分发饼干（贪心算法） TABE_ 贪心算法 leetcode 算法
注：题目：假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出
wooyun知识库爬虫（自动整理保存为pdf）大囚长编程人生黑客帝国 spider python
#!C:\Python27\python.exe#coding=utf8importosimportpdfkitimporturllib2frombs4importBeautifulSoupfrommultiprocessingimportPoolimportsocketsocket.setdefaulttimeout(60)importsysreload(sys)sys.setdefaulten
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
贪心算法（9）（java）最优除法奋进的小暄 java 贪心算法算法
题目：给定一正整数数组nums,nums中的相邻整数将进行浮点除法。例如，[2,3.4]->2/3/4.例如，nums=[2,3,4]，我们将求表达式的值“2/3/4"。但是，你可以在任意位置添加任意数目的括号，来改变算数的优先级。你需要找出怎么添加括号，以便计算后的表达式的值为最大值。以字符串格式返回具有最大值的对应表达式。注意:你的表达式不应该包含多余的括号。输入：【1000，100，10，2
python画画加粗_Matplotlib'粗体'字体 - python weixin_39569747 python画画加粗
跟随thisexample：importnumpyasnpimportmatplotlib.pyplotaspltfig=plt.figure()fori,labelinenumerate(('A','B','C','D')):ax=fig.add_subplot(2,2,i+1)ax.text(0.05,0.95,label,transform=ax.transAxes,fontsize=16,
matplotlib使用大字体，粗线 weixin_34254823 python
2019独角兽企业重金招聘Python工程师标准>>>matplotlib在绘图时缺省的字体和线条都有些细，所以需要加粗一下importmatplotlib.pyplotaspltdefuseLargeSize(axis,marker_lines=None,fontsize='xx-large',fontproperties=None):'''将X,Y坐标轴的标签、刻度以及legend都使用大字体
六种方法教你将Python源代码打包成exe xuefeng_210 python 开发语言 linux
将Python源代码打包成可执行文件（exe）是一种常见的需求，它可以使我们的程序在没有安装Python解释器的环境中运行。在本文中，我们将介绍六种常用的方法来实现这个目标，并详细说明每种方法的使用过程。cx_Freezecx_Freeze是一个用于将Python脚本打包成可执行文件的工具。它可以将Python代码和依赖的库文件一起打包，并生成一个独立的可执行文件。使用cx_Freeze的步骤如下
Python Excel操作新玩法：从零到高手掌握openpyxl xuefeng_210 python 自动化 java
openpyxl是Python中一个强大的第三方库，用于操作Excel文件，它可以读取、写入和修改Excel文件，并且支持Excel文件中的样式、图表等元素。openpyxl使得在Python中处理Excel文件变得非常简单和高效。本文将从入门到精通地介绍openpyxl的使用方法，带你掌握在Python中处理Excel文件的技巧。目录安装和导入创建和保存Excel文件读取Excel文件写入Exc
CentOS7下安装python3.8 讓丄帝愛伱 Linux 编程语言
查看系统版本#查看系统版本cat/etc/centos-release>CentOSLinuxrelease7.2.1511(Core)uname-a>Linuxlocalhost.localdomain3.10.0-327.el7.x86_64#1SMPThuNov1922:10:57UTC2015x86_64x86_64x86_64GNU/Linux#查看python版本python-V>Py
Ubuntu18.04切换python3.8版本波波维琦 python linux ubuntu
安装python3.8sudoaptinstallpython3.8赋予python优先级sudoupdate-alternatives--install/usr/bin/pythonpython/usr/bin/python3.82切换python默认版本sudoupdate-alternatives--configpython选择python3.8的编号，回车赋予python3优先级sudou
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化 ToreanonyTang python sql pandas 数据库开发语言
文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(
DJANGO 中间件的白名单配置换个网名有点难 django python
在处理白名单内的多个Apps的URL链接时，可以采用以下几种方法来简化白名单的配置：1.使用reverse动态获取URL如果你在urls.py中为每个App的URL定义了名称（name参数），可以使用reverse函数动态获取这些URL，而不是硬编码路径。这样可以避免手动维护大量的路径字符串。Python复制fromdjango.urlsimportreverseclassLoginRequire
MySQL Connector / Python weixin_30369087
MySQLConnector/Python允许Python程序使用符合Python数据库API规范v2.0（PEP249）的API访问MySQL数据库。MySQLConnector/Python包括对以下内容的支持：几乎所有MySQLServer提供的功能都包括MySQLServer版本5.7。Connector/Python8.0也支持XDevAPI。有关使用XDevAPI的MySQLConne
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Matlab代码实现）创新优化代码学习 matlab 前端算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码、数据、文章下载1概述上一次介绍的是用Python代码编程的，这次用Matlab代码实现。回顾见：基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Python代码实现）摘要本文研究了峰值平均功率比(
Python 3 介绍（二十二）--mysql-connector-python 小蘑菇二号零基础学 Python--快速入门 Python 快速入门 adb
目录安装mysql-connector-python基本使用示例1.连接到数据库2.插入数据3.更新数据4.删除数据进阶功能1.使用事务2.批量插入数据3.使用字典游标错误处理总结mysql-connector-python是一个用于Python的MySQL数据库驱动程序，它允许Python应用程序与MySQL数据库进行交互。这个驱动程序提供了高级别的API，支持多种Python版本，并且兼容多种
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

【机器学习】什么是决策树模型？如何去构建决策树？何时使用决策树？何时使用神经网络？

系列文章目录

前言

一、决策树模型

1 什么是决策树模型？

2 决策树学习的过程

二、如何确定在节点使用的特征

1 熵的定义

2 什么是信息增益？

3 利用信息增益来看看构建决策树的整个过程

三、独热编码one-hot

1 什么是one-hot

2 one-hot 在决策树中的应用

四、回归树

五、 使用多个决策树

1 为什么要使用树集合

2 有放回抽样

3 随机森林算法

4 XG Boost 算法

六、何时使用决策树

总结

你可能感兴趣的:(机器学习,python,决策树,神经网络,算法)

五、使用多个决策树