DARRENANJIAN

Day_61-62 决策树

Day_61-62决策树(准备工作)

一. 算法的基本概念

1. 决策树的定义

2. 如何构建决策树？

2.1 熵

2.2 信息增益原则

2.3 计算步骤

二. 示例演示

1. 第一次节点决策分类：

2. 后续节点的决策分类

3. 决策分类的结束条件

三. 代码实现

1. 主函数

2. 两个构造函数

3. 打标签函数getMajorityClass和判定纯度函数pureJudge

4. 核心代码建立决策树

4.1 判定是否结束子树构造

4.2 根据信息增益原则寻找最优属性

4.3 根据最优属性进行分类

4.4 构造孩子节点和更新节点信息

5. 输出函数

6. 准确性检验

四. 运行结果

Day_61-62决策树(准备工作)

一. 算法的基本概念

1. 决策树的定义

决策树是一种机器学习的方法（参考这篇文章），决策树的生成算法有ID3, C4.5和C5.0等（这篇文章只讨论ID3）。决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。

举一个简单的例子：

假设我要买一部手机，只考虑手机的两个方面:颜色和价格。我的心路历程是这样的：首先要看颜色，不是白色的我不喜欢，不买；然后看价格，本人价格敏感，太贵的不买。这个解决方案可以用一个流程图来描述，如图1所示。具体来说，这是一个树。方形就是我要判断的一个指标；有向边就是一个指标的取值；沿着有向边走到树的末端，就到了叶子节点——叶子节点就是我最终的决定。来一个手机，我按这个树描述的规则，进行判断，就可以知道我能不能买。

图1

2. 如何构建决策树？

上面我们知道了上面是决策树，回顾一下目标，我们的目标是根据数据输出它的标签对不对？所以这里问题的关键是我们如何构建一个决策树。这里我们就开始介绍算法的基本概念

2.1 熵

学过信息论的读者应该都知道熵的概念（熵在其他的领域计算公式略有差异，这里以信息领域为准），1948年，香农将统计物理中熵的概念，引申到信道通信的过程中，香农定义的“熵”又被称为“香农熵”或“信息熵”。对于属性 $P_{1}$ 的熵即：

其中标记概率空间中所有可能的样本，表示 $p_{i}$ 该样本的出现几率，是和单位选取相关的任意常数（这里我取为1），表示这个属性的最终熵值。这个概念是用于衡量信息的混乱程度的量，熵的值越高，表示数据集的混乱程度越高（纯度越低）；熵的值越低，表示数据集的混轮程度越高（纯度越低）。

条件熵表示在属性 $P_{i}$ 条件下判定结果的熵值，对于属性 $P_{1}$ 条件下判定结果的熵值

2.2 信息增益原则

对于某一个数据集，它可能有诸多属性，对于每一个属性，是否以它分类呢？这里引入信息增益的概念。对于某一个数据集，它的某一个属性为 $P_{i}$ ，那么在 $P_{i}$ 条件下的信息增益为 $g(D,P_{i})$ ，定义 $g(D,P_{i})$ 的计算公式如下所示，

除此之外，对于每一个属性由于都相等，之前是计算 $max\ g(D,P_{i})$ ，现在

$max(g(D,P_{i}))=max(S(D)-S(D|P_{i})) =max(-S(D|P_{i}))=min(S(D|P_{i}))$

2.3 计算步骤

①从根节点开始，计算所有可能的特征的信息增益，选择信息增益最大的特征作为节点的划分特征；

②由该特征的不同取值建立子节点；

③再对子节点递归1-2步，构建决策树；

④直到没有特征可以选择或类别完全相同为止，得到最终的决策树。

二. 示例演示

对于数据weather

@relation weather
@attribute Outlook {Sunny, Overcast, Rain}
@attribute Temperature {Hot, Mild, Cool}
@attribute Humidity {High, Normal, Low}
@attribute Windy {FALSE, TRUE}
@attribute Play {N, P}
@data
Sunny,Hot,High,FALSE,N
Sunny,Hot,High,TRUE,N
Overcast,Hot,High,FALSE,P
Rain,Mild,High,FALSE,P
Rain,Cool,Normal,FALSE,P
Rain,Cool,Normal,TRUE,N
Overcast,Cool,Normal,TRUE,P
Sunny,Mild,High,FALSE,N
Sunny,Cool,Normal,FALSE,P
Rain,Mild,Normal,FALSE,P
Sunny,Mild,Normal,TRUE,P
Overcast,Mild,High,TRUE,P
Overcast,Hot,Normal,FALSE,P
Rain,Mild,High,TRUE,N

1. 第一次节点决策分类：

计算属性Outlook下的信息增益：

$S(play|Sunny)=-3/5\cdot log(3/5)-2/5\cdot log(2/5)=0.673$

$S(play|Overcast)=0-1\cdot log1=0$

$S(play|Rain)=-2/5\cdot log(2/5)-3/5\cdot log(3/5)=0.673$

故最终的条件熵为:

$S(play|Outlok)=-5/14\cdot 0.673-0-5/14\cdot 0.673=0.4807$

同理计算另外三个属性的条件熵：

由上述的公式可知，根据最大化信息增益准则，用Outlook属性作为第一个节点的分类标准最为合适。

2. 后续节点的决策分类

同样的道理，上述过程完成了对于第一个节点的决策分类，对于第二个节点也需要进行上述的决策分类，需要注意的是，这里的条件熵已经改变了部分数据集，需要重新判定，例如对于sunny下述数据，hot有2个，mild有2个，cool有1个，现在的条件熵为

$S(play|Hot)=-1\cdot log(1)-0\cdot log(0)=0$

$S(play|Mild)=-1/2\cdot log(1/2)-1/2\cdot log(1/2)=0.6931$

$S(play|Cool)=-0\cdot log(0)-1\cdot log(1)=0$

对应的条件熵

$S(play|Temperature)=-2/5\cdot 0-2/5\cdot 0.6931-1/5\cdot 0=0.2722$

对应另外的属性同理,也就是说，没当经过一个节点的分类之后，所选取的空间发生改变，对应的概率和熵值也会发生改变。

3. 决策分类的结束条件

当什么时候决策分类结束呢?当这个节点的所有结果都是一致的时候，结束决策分类(结果作为叶子节点)，对应上式的信息增益为1（因为S（D）=1，S(D|P)=0）结束分类。

最终构造完成的决策树

三. 代码实现

1. 主函数

这一段代码主要是看第二段，传入所有数据构成一个节点tempID3，设置临界阈值为3（表示当数据个数＜3之后结束判定分类）；根据这个节点tempID3建树；输出建树的结果；检验测试（由训练数据作为测试数据，考察准确度）。

这里最重要的是理解理解建树的递归思想（我们是根据这个tempID3节点建树，若条件满足则继续向下建树，不满足则退出）；其次检验函数也需要用到递归思想，为方便理解我待会会在后面叙述。

    /**
     *************************
     * Test this class.
     *
     * @param args
     *            Not used now.
     *************************
     */
    public static void main(String[] args) {

        id3Test();
    }// Of main

    /**
     *************************
     * Test this class.
     *
     * @param args
     *            Not used now.
     *************************
     */
    public static void id3Test() {
        ID3 tempID3 = new ID3("D:/data/weather.arff");
        // ID3 tempID3 = new ID3("D:/data/mushroom.arff");
        ID3.smallBlockThreshold = 3;
        tempID3.buildTree();

        System.out.println("The tree is: \r\n" + tempID3);

        double tempAccuracy = tempID3.selfTest();
        System.out.println("The accuracy is: " + tempAccuracy);
    }// Of id3Test

2. 两个构造函数

第一个构造函数主要是在程序开始的时候传入数据，

①输入路径，根据路径找到数据data，再根据data创建instance类的dataset对象，创建失败则抛出异常。

②setClassIndex函数设置标签对应的是哪一个属性（4），numClasses记录标签种类的个数（以天气数据为例，只有去玩和不去玩两种，故numClasses=2）

③availableInstances是这个节点的所有数据，可以理解为要分类的数据索引；availableAttributes是除去标签的属性数组（availableAttributes数组的每一个空记录是第几个属性（也表示这个节点还可能对哪几个属性判定分类））

④初始化孩子为null（因为还没有判断）；getMajorityClass根据此时的数据情况得到这个节点的标签（这一点其实没什么用，除了在叶子节点对标签的判断外，在非叶子节点判断无用，不过因为是同一个对象，可能也就判断了）；pureJudge函数判定是否数据“纯”，即这个节点的数据的标签是否都是一类。

    /**
     ********************
     * The constructor.
     *
     * @param paraFilename
     *            The given file.
     ********************
     */
    public ID3(String paraFilename) {
        dataset = null;
        try {
            FileReader fileReader = new FileReader(paraFilename);
            dataset = new Instances(fileReader);
            fileReader.close();
        } catch (Exception ee) {
            System.out.println("Cannot read the file: " + paraFilename + "\r\n" + ee);
            System.exit(0);
        } // Of try

        dataset.setClassIndex(dataset.numAttributes() - 1);
        numClasses = dataset.classAttribute().numValues();

        availableInstances = new int[dataset.numInstances()];
        for (int i = 0; i < availableInstances.length; i++) {
            availableInstances[i] = i;
        } // Of for i
        availableAttributes = new int[dataset.numAttributes() - 1];
        for (int i = 0; i < availableAttributes.length; i++) {
            availableAttributes[i] = i;
        } // Of for i

        // Initialize.
        children = null;
        // Determine the label by simple voting.
        label = getMajorityClass(availableInstances);
        // Determine whether or not it is pure.
        pure = pureJudge(availableInstances);
    }// Of the first constructor

第二个构造函数待会运行到的时候再说明。

3. 打标签函数getMajorityClass和判定纯度函数pureJudge

首先是getMajorityClass函数，这个时候只有一个节点可能理解比较简单，但是对于后面将孩子分类之后打标签就可能理解不了。其实本质上都是一样的，现在的所有数据都集中在如下的节点。

我们根据这个节点的所有标签个数（去玩还是不去玩），谁多就打上谁的标签（对于这个节点，不去玩的个数少于去玩的个数，所以标签是不去玩）

这个函数的作用就是我们学习得到的判定结果，待会需要和原本已知的数据作比较得到准确度。

    /**
     **********************************
     * Compute the majority class of the given block for voting.
     *
     * @param paraBlock
     *            The block.
     * @return The majority class.
     **********************************
     */
    public int getMajorityClass(int[] paraBlock) {
        int[] tempClassCounts = new int[dataset.numClasses()];
        for (int i = 0; i < paraBlock.length; i++) {
            tempClassCounts[(int) dataset.instance(paraBlock[i]).classValue()]++;
        } // Of for i

        int resultMajorityClass = -1;
        int tempMaxCount = -1;
        for (int i = 0; i < tempClassCounts.length; i++) {
            if (tempMaxCount < tempClassCounts[i]) {
                resultMajorityClass = i;
                tempMaxCount = tempClassCounts[i];
            } // Of if
        } // Of for i

        return resultMajorityClass;
    }// Of getMajorityClass

接着是“纯度函数”pureJudge，还是根据这个节点的所有数据判断纯度，若所有的标签都一致，则输出为true；否则则输出false。这个函数的主要作用是判断是否结束某一个子树向下的延伸，即我还需不需要再加孩子扩充决策树。

    /**
     **********************************
     * Is the given block pure?
     *
     * @param paraBlock
     *            The block.
     * @return True if pure.
     **********************************
     */
    public boolean pureJudge(int[] paraBlock) {
        pure = true;

        for (int i = 1; i < paraBlock.length; i++) {
            if (dataset.instance(paraBlock[i]).classValue() != dataset.instance(paraBlock[0])
                    .classValue()) {
                pure = false;
                break;
            } // Of if
        } // Of for i

        return pure;
    }// Of pureJudge

4. 核心代码建立决策树

这部分代码是核心，主要理解三个点：①怎么样用递归建立决策树②怎么样对数据进行划分③怎么样对已使用和未使用的属性进行判别。

    /**
     **********************************
     * Build the tree recursively.
     **********************************
     */
    public void buildTree() {
        if (pureJudge(availableInstances)) {
            return;
        } // Of if
        if (availableInstances.length <= smallBlockThreshold) {
            return;
        } // Of if

        selectBestAttribute();
        int[][] tempSubBlocks = splitData(splitAttribute);
        children = new ID3[tempSubBlocks.length];

        // Construct the remaining attribute set.
        int[] tempRemainingAttributes = new int[availableAttributes.length - 1];
        for (int i = 0; i < availableAttributes.length; i++) {
            if (availableAttributes[i] < splitAttribute) {
                tempRemainingAttributes[i] = availableAttributes[i];
            } else if (availableAttributes[i] > splitAttribute) {
                tempRemainingAttributes[i - 1] = availableAttributes[i];
            } // Of if
        } // Of for i

        // Construct children.
        for (int i = 0; i < children.length; i++) {
            if ((tempSubBlocks[i] == null) || (tempSubBlocks[i].length == 0)) {
                children[i] = null;
                continue;
            } else {
                // System.out.println("Building children #" + i + " with
                // instances " + Arrays.toString(tempSubBlocks[i]));
                children[i] = new ID3(dataset, tempSubBlocks[i], tempRemainingAttributes);

                // Important code: do this recursively
                children[i].buildTree();
            } // Of if
        } // Of for i
    }// Of buildTree

4.1 判定是否结束子树构造

回到我们之前的过程，我们现在已经建立了一个节点——原数据集，现在对这个节点进行判断，若它已经是“纯”数据了（标签一致）直接结束；若它的数据个数≤smallBlockThreshold直接结束。显然两个条件都没有满足。

4.2 根据信息增益原则寻找最优属性

现在我们就需要对这部分数据进行分类selectBestAttribute函数的作用是选出最佳的分类属性：根据现在的属性个数（0,1,2,3）做循环，计算每一个的条件熵（上面的公式推导过，因为S（D）都是一致的，所有我们只需要计算条件熵）。到条件熵函数conditionalEntropy：传入一个属性paraAttribute，构造数组用于记录paraAttribute属性下的每个具体属性的个数，构造tempCountMatrix用于记录每个具体属性下标签的个数。

接着开始计算条件熵，第一重循环对某一个属性的具体属性个数循环i，第二重循环对标签的个数循环j，现在的概率pi=tempCountMatrix[i][j]/ tempValueCounts[i]，对于某一个具体属性的条件熵tempEntropy-=p1*logp1-p2*logp2（这里2是标签的个数），最后计算某一个属性的条件熵resultEntropy=resultEntropy+tempValueCounts[i]（某个具体属性的所有个数）/数据总数tempNumInstances*tempEntropy某个属性的条件熵。

最后记录下最小的条件熵，输出它的类别，即完成了selectBestAttribute（）的作用。

    /**
     **********************************
     * Select the best attribute.
     *
     * @return The best attribute index.
     **********************************
     */
    public int selectBestAttribute() {
        splitAttribute = -1;
        double tempMinimalEntropy = 10000;
        double tempEntropy;
        for (int i = 0; i < availableAttributes.length; i++) {
            tempEntropy = conditionalEntropy(availableAttributes[i]);
            if (tempMinimalEntropy > tempEntropy) {
                tempMinimalEntropy = tempEntropy;
                splitAttribute = availableAttributes[i];
            } // Of if
        } // Of for i
        return splitAttribute;
    }// Of selectBestAttribute

    /**
     **********************************
     * Compute the conditional entropy of an attribute.
     *
     * @param paraAttribute
     *            The given attribute.
     *
     * @return The entropy.
     **********************************
     */
    public double conditionalEntropy(int paraAttribute) {
        // Step 1. Statistics.
        int tempNumClasses = dataset.numClasses();
        int tempNumValues = dataset.attribute(paraAttribute).numValues();
        int tempNumInstances = availableInstances.length;
        double[] tempValueCounts = new double[tempNumValues];
        double[][] tempCountMatrix = new double[tempNumValues][tempNumClasses];

        int tempClass, tempValue;
        for (int i = 0; i < tempNumInstances; i++) {
            tempClass = (int) dataset.instance(availableInstances[i]).classValue();
            tempValue = (int) dataset.instance(availableInstances[i]).value(paraAttribute);
            tempValueCounts[tempValue]++;
            tempCountMatrix[tempValue][tempClass]++;
        } // Of for i

        // Step 2.
        double resultEntropy = 0;
        double tempEntropy, tempFraction;
        for (int i = 0; i < tempNumValues; i++) {
            if (tempValueCounts[i] == 0) {
                continue;
            } // Of if
            tempEntropy = 0;
            for (int j = 0; j < tempNumClasses; j++) {
                tempFraction = tempCountMatrix[i][j] / tempValueCounts[i];
                if (tempFraction == 0) {
                    continue;
                } // Of if
                tempEntropy += -tempFraction * Math.log(tempFraction);
            } // Of for j
            resultEntropy += tempValueCounts[i] / tempNumInstances * tempEntropy;
        } // Of for i

        return resultEntropy;
    }// Of conditionalEntropy

4.3 根据最优属性进行分类

上面我们已经找出了最优的属性splitAttribute，splitData是将现在的节点数据按最优属性划分出来，返回根据最优属性splitAttribute构建的二维数组，行表示每一个具体的属性，列表示对应的数据索引。

    /**
     **********************************
     * Split the data according to the given attribute.
     *
     * @return The blocks.
     **********************************
     */
    public int[][] splitData(int paraAttribute) {
        int tempNumValues = dataset.attribute(paraAttribute).numValues();
        // System.out.println("Dataset " + dataset + "\r\n");
        // System.out.println("Attribute " + paraAttribute + " has " +
        // tempNumValues + " values.\r\n");
        int[][] resultBlocks = new int[tempNumValues][];
        int[] tempSizes = new int[tempNumValues];

        // First scan to count the size of each block.
        int tempValue;
        for (int i = 0; i < availableInstances.length; i++) {
            tempValue = (int) dataset.instance(availableInstances[i]).value(paraAttribute);
            tempSizes[tempValue]++;
        } // Of for i

        // Allocate space.
        for (int i = 0; i < tempNumValues; i++) {
            resultBlocks[i] = new int[tempSizes[i]];
        } // Of for i

        // Second scan to fill.
        Arrays.fill(tempSizes, 0);
        for (int i = 0; i < availableInstances.length; i++) {
            tempValue = (int) dataset.instance(availableInstances[i]).value(paraAttribute);
            // Copy data.
            resultBlocks[tempValue][tempSizes[tempValue]] = availableInstances[i];
            tempSizes[tempValue]++;
        } // Of for i

        return resultBlocks;
    }// Of splitData

4.4 构造孩子节点和更新节点信息

首先更新其余属性的值，由于我们已经选出了最优属性，现在需要将这个属性从之前的属性组availableAttributes剥离开来。接着构造孩子节点：由于splitData函数返回的是分好类的二维数组，我们根据这个二维数组构建孩子节点，每个孩子节点的数据是数组tempSubBlocks的一行。接着递归操作，建树。

5. 输出函数

    /**
     *******************
     * Overrides the method claimed in Object.
     *
     * @return The tree structure.
     *******************
     */
    public String toString() {
        String resultString = "";
        String tempAttributeName = dataset.attribute(splitAttribute).name();
        if (children == null) {
            resultString += "class = " + label;
        } else {
            for (int i = 0; i < children.length; i++) {
                if (children[i] == null) {
                    resultString += tempAttributeName + " = "
                            + dataset.attribute(splitAttribute).value(i) + ":" + "class = " + label
                            + "\r\n";
                } else {
                    resultString += tempAttributeName + " = "
                            + dataset.attribute(splitAttribute).value(i) + ":" + children[i]
                            + "\r\n";
                } // Of if
            } // Of for i
        } // Of if

        return resultString;
    }// Of toString

6. 准确性检验

主要是理解test函数和classify函数

对于test函数，做leave-out-leave测试，若检测classify(paraDataset.instance(i))每一个实例值和原数据不相对应的话，correct自加1。

对于classify函数：若此时孩子节点为null（表示该节点为叶子节点）输出标签；若不然tempChild指向决策树的子节点，若tempChild为null（表示没有以这个属性分类的节点）输出标签。最后递归paraInstance。

    /**
     **********************************
     * Classify an instance.
     *
     * @param paraInstance
     *            The given instance.
     * @return The prediction.
     **********************************
     */
    public int classify(Instance paraInstance) {
        if (children == null) {
            return label;
        } // Of if

        ID3 tempChild = children[(int) paraInstance.value(splitAttribute)];
        if (tempChild == null) {
            return label;
        } // Of if

        return tempChild.classify(paraInstance);
    }// Of classify

    /**
     **********************************
     * Test on a testing set.
     *
     * @param paraDataset
     *            The given testing data.
     * @return The accuracy.
     **********************************
     */
    public double test(Instances paraDataset) {
        double tempCorrect = 0;
        for (int i = 0; i < paraDataset.numInstances(); i++) {
            if (classify(paraDataset.instance(i)) == (int) paraDataset.instance(i).classValue()) {
                tempCorrect++;
            } // Of i
        } // Of for i

        return tempCorrect / paraDataset.numInstances();
    }// Of test

    /**
     **********************************
     * Test on the training set.
     *
     * @return The accuracy.
     **********************************
     */
    public double selfTest() {
        return test(dataset);
    }// Of selfTest

四. 运行结果

weather数据的运行结果：

mushroom数据的运行结果：

数据挖掘中的关联规则--面向频繁项集的A-Priori算法绒绒毛毛雨大数据挖掘算法数据挖掘 python
文章目录一、频繁项集与关联规则学习1.实体与关系2.支持度与频繁项集3.关联规则二、寻找频繁项集1.频繁项集发现的挑战三角矩阵项对计数值的三元组存储方法2.频繁项集的单调性3.面向项对的A-Priori算法4.PCY算法哈希表创建第二遍扫描5、多阶段算法6、多哈希算法7、随机化算法8、SON算法9、Toivonen算法三、频繁项集小实践：消费者购买记录模拟数据示例具体问题分析一、频繁项集与关联规则
Python:实现similarity search相似性搜索算法(附完整源码) 源代码大师 python算法完整教程 python 机器学习
Python:实现similaritysearch相似性搜索算法from__future__importannotationsimportmathimportnumpyasnpdefeuclidean(input_a:np.ndarray,input_b:np.ndarray)->
探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
龙珠训练营机器学习task04 a_little_pig_ python
学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容，学习链接为：https://tianchi.aliyun.com/competition/entrance/231702/introduction?spm=5176.20222472.J_3678908510.8.8f5e67c2RKrT98总体思路：分别使用LightGBM，xgboost，gbdt，catboost建立多个个体学习器（加入b
【贪心算法】洛谷P1106 - 删数问题仟濹算法学习笔记贪心算法算法 c语言 c++
2025-01-22-第46篇【洛谷】贪心算法题单-【贪心算法】-【学习笔记】作者(Author):郑龙浩/仟濹(CSND账号名)目录文章目录目录P1106删数问题题目描述输入格式输出格式样例#1样例输入#1样例输出#1提示思路代码P1106删数问题题目描述键盘输入一个高精度的正整数nnn（不超过250250250位），去掉其中任意kkk个数字后剩下的数字按原左右次序将组成一个新的非负整数。编程对
dfs专题五：FloodFill算法 lisanndesu 算法深度优先
1.图像渲染link:733.图像渲染-力扣（LeetCode）codeclassSolution{public:intprev;vector>floodFill(vector>&image,intsr,intsc,intcolor){if(image[sr][sc]==color)returnimage;prev=image[sr][sc];dfs(image,sr,sc,color);retu
机器学习与分布式机器学习_经理人的机器学习–您需要知道的 cumian8165 算法神经网络大数据编程语言 python
机器学习与分布式机器学习Ifyouaremanagingatechteamasaproductorprojectmanager,hereiswhatyouneedtoknowaboutmachinelearning.如果您要以产品或项目经理的身份管理技术团队，这是您需要了解的有关机器学习的知识。Machinelearninganddeeplearninghavebeenpopularbuzzwor
影刀 RPA：企业数字化转型的强大引擎 RPA李老师 rpa
一、影刀RPA是什么影刀RPA是一种基于机器学习和人工智能技术的自动化工具，它在当今数字化时代发挥着重要作用。影刀RPA是一款软件机器人，能模拟人的各种操作，在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作，释放人非主观决策、逻辑性高、规则性强的工作。在了解影刀RPA之前，我们先来认识一下RPA。RPA是RoboticProcessAutomation（机器人流程自动化）的简称，201
【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用半截诗 Python python 机器学习 scikit-learn 人工智能深度学习数据分析随机森林
文章目录从零到精通：全面揭秘Scikit-Learn在机器学习中的绝妙应用前言第一部分：深入了解Scikit-Learn的基础知识1.什么是Scikit-Learn？2.安装Scikit-Learn3.Scikit-Learn中的基本构件4.数据集的加载与探索5.数据预处理标准化数据6.构建和训练机器学习模型构建逻辑回归模型7.模型评估与验证混淆矩阵第二部分：深入理解Scikit-Learn的高级
分形、大自然的分形几何、数据可视化、Python绘图 timedot-hj python绘图指南 -分形与数据可视化可视化 python 几何学算法
分形、大自然的分形几何、数据可视化、Python绘图中国传统中的『分形』大自然的分形几何数据可视化本系列采用turtle、matplotlib、numpy这三个Python工具，以分形与计算机图像处理的经典算法为实例，通过程序和图像，来帮助读者一步步掌握Python绘图和数据可视化的方法和技巧，并且让读者感受到“龙枝屈曲竞分形，瑰丽绮错千万状”的分形魅力。本系列共有八章，分别为海岸线有多长，基因与
自动驾驶面临的挑战与应对策略自动驾驶
尽管自动驾驶技术取得了显著的进展，但在实现全面商业化和广泛应用之前，仍面临着诸多挑战。这些挑战不仅涉及技术层面，还包括法规、社会接受度等多个方面。技术挑战是自动驾驶面临的首要问题。虽然目前的传感器和算法能够在大多数情况下实现车辆的自动驾驶，但在一些复杂的交通场景下，如恶劣天气、道路施工、突发事件等，自动驾驶系统的性能仍然受到很大的限制。例如，在暴雨、大雪等恶劣天气条件下，传感器的精度和可靠性会下降
模拟法练习C++ 1 c++初学者ABC C++c++开发语言算法
有错请指出！对于模拟法，百度定义是其实，没有这么麻烦，也就是题目是什么，我们就怎么写，也可以说它是不是算法的算法，最好把代码模块化特点：1.题目简单，代码量很大2.不好找错误3.在比赛中经常考4.代码灵活下面是几道例题1.扑克游戏题目描述三张扑克牌比大小，每个人从扑克牌中抽取三张牌，然后进行比较，规则如下：点数规则：A为最小，K为最大。A记为1点，JQK分别记为11点、12点、13点。比较规则：最
[C++技能提升]类注册 Hunter_pcx 工程技能人工智能 c++
最近在做AI信息在各个平台流转的框架设计，想要设计一种可以灵活扩展、不改变原有代码的框架，了解到了类注册。具体需求是这样的：AI算法在客户本地电脑和云端都有部署，原先AI在这两个平台下的输出格式并不统一，且每个AI功能都有自己的输出格式，导致两个平台下的AI信息无法共享，带来了计算资源的浪费，管理起来也比较混乱，因此需要一种模式将所有AI输出规范起来。我的解决思路大概就是将所有AI信息都规范输出到
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
leetCode热门100题——3.最长连续序列 Bin二叉 leetcode 算法数据结构 java
目录题目描述分析方法：从最小数开始遍历思路代码时间复杂度题目描述给定一个未排序的整数数组nums，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复杂度为O(n)的算法解决此问题。示例1：输入：nums=[100,4,200,1,3,2]输出：4解释：最长数字连续序列是[1,2,3,4]。它的长度为4。示例2：输入：nums=[0,3,7,2,5,8,4,6,0,1
改进候鸟优化算法之二：基于混沌映射的候鸟优化算法（MBO-CM）搏博算法人工智能 r语言开发语言算法策略模式
基于混沌映射的候鸟优化算法（MigratingBirdsOptimizationbasedonChaoticMapping，MBO-CM）是一种结合了混沌映射与候鸟优化算法（MigratingBirdsOptimization，MBO）的优化方法。一、候鸟优化算法（MBO）简介候鸟优化算法是一种自然启发的元启发式算法，由Duman等人于2011年（也有说法为2012年）提出。该算法模拟候鸟在迁徙过
Python数据分析案例教程 kkchenjj 数据挖掘 python 数据分析信息可视化
Python数据分析案例教程Python在数据分析中的应用Python因其简洁的语法、强大的库支持以及广泛的社区资源，已成为数据分析领域的首选语言。它能够处理从数据清洗、数据可视化到机器学习模型构建的整个数据科学流程。本节将深入探讨Python在数据分析中的具体应用，包括但不限于数据清洗、数据探索、统计分析和预测建模。数据清洗数据清洗是数据分析的首要步骤，涉及处理缺失值、异常值、重复数据以及数据类
Nacos负载均衡平凡人笔记平凡人笔记负载均衡 java 运维
常见的负载均衡策略随机、hash、轮询、权重、最小连接数、最快响应速度适用场景1、在短连接中因为连接快速建立销毁因为数据延时容易造成堆积效应，随机、hash、轮询、权重四种方式大致能够保持整体是均衡的，服务端重启也不会影响整体均衡2、最小连接、最快响应速度是有状态的算法，因为数据延时容易造成堆积效应3、长连接，连接会一直保持，断连后需要重新选择一个新的服务节点，当服务重启后，最终连接数会出现不均衡
SQL实现md5加密方法 m0_74824002 面试学习路线阿里巴巴 sql 数据库
1.MD5加密概述MD5(MessageDigestAlgorithm5)是一种广泛使用的哈希算法，它将输入的字符串（或数据）转换为固定长度的128位（16字节）哈希值。MD5的主要特点是：不可逆性：MD5是一种单向哈希算法，这意味着你无法从MD5哈希值还原出原始数据。输出固定长度：无论输入数据的长度如何，MD5输出的哈希值始终是32个字符的十六进制数（128位）。碰撞性：虽然MD5很长时间被广泛
2025数学建模美赛B题完整建模思路——管理可持续旅游业鹿鹿数模数学建模
2025MCM问题B：管理可持续旅游业以下是我们对该题目的赛题分析，由于完整内容过长，因此在此处放出部分内容，欢迎从文末小卡片处加群获取。赛题分析以下内容包括三个主要部分：(1)题目的中文翻译(2)对题目的整体分析与思路综述(3)对题目要求的逐项详细分析与求解思路。本文的撰写将综合运用多元的数学模型、算法以及机器学习/深度学习的方法，并在必要时给出题外假设与可行的创新性思路，以期为参赛者提供较为系
AcWing算法基础课笔记——高斯消元 SharkWeek. AcWing 算法笔记数论
高斯消元用来求解方程组a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2…an1x1+an2x2+⋯+annxn=bna_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n=b_1\\a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n=b_2\\\dots\\a_{n1}x_1+a_{n2}x_2+\dots+a_{nn}x
算法练习——函数、递归和递推 SharkWeek. 算法练习算法递归深度优先 c++
在此记录一些有关函数、递归和递推的问题。所有题目均来自洛谷的题单能力提升综合题单Part1入门阶段-题单-洛谷|计算机科学教育新生态(luogu.com.cn)（实际上都没有用递推做）[NOIP2001普及组]数的计算题目描述给出正整数nnn，要求按如下方式构造数列：只有一个数字nnn的数列是一个合法的数列。在一个合法的数列的末尾加入一个正整数，但是这个正整数不能超过该数列最后一项的一半，可以得到
C#在软件定义无线电（SDR）开发中的革命性应用——从概念到实践的全面解析墨夶 C#学习资料2 c#网络开发语言
在这个数字化与无线通信飞速发展的时代，软件定义无线电（SoftwareDefinedRadio,SDR）作为一项关键技术，正在改变着我们对传统无线电系统的认知。它不仅允许工程师们以软件的方式实现复杂的信号处理算法，而且还为各种新型无线应用提供了无限可能。然而，要真正驾驭这项技术并非易事，尤其是在选择合适的编程语言时更是如此。今天，我们将聚焦于C#这一强大而灵活的语言，探讨它是如何成为SDR开发的理
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
GFPGAN - 腾讯开源的图形修复算法修复算法小众AI AI开源开源算法人工智能
GFPGAN是腾讯开源的人脸修复算法，它利用预先训练好的面部修复算法，并且封装了各种丰富多样的先验因素进行盲脸(blindface)修复，可以对老照片进行很好的修复。35800Stars5900Forks345Issues11贡献者ApacheLicensePython语言代码:https://github.com/TencentARC/GFPGAN更多AI开源软件：AI开源-小众AI主要功能盲修
二分查找算法 mcharleylei 算法 python
目录1、概述2、代码实现（1）递归实现（2）非递归实现1、概述二分查找又称折半查找，优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查
Kmeans与KMedoids聚类对比以及python实现呵呵爱吃菜 kmeans 聚类 python
在机器学习领域，聚类算法是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本尽可能相似，而不同簇之间的样本尽可能不同。K-Means和K-Medoids是两种经典的聚类算法，它们都基于划分的思想，但在具体实现和应用场景上存在一些差异。一、算法原理1.K-Means:中心点选择:K-Means算法通过计算簇内所有样本的均值来确定中心点（centroid）。距离度量:通常
网络安全态势感知：企业数字化转型的 “安全密钥” 知白守黑V 安全运营网络安全态势感知网络
在数字经济飞速发展的当下，网络安全已经成为企业平稳运营的关键所在。从大型企业的数据泄露事故，到中小企业遭遇的各类网络攻击，网络安全威胁无处不在。而网络安全态势感知产品，作为应对复杂网络威胁的关键技术，正逐渐成为企业守护数字资产的“智慧大脑”。一、态势感知：全景掌控，精准防御你可以把网络安全态势感知想象成企业网络的“超级侦察兵”。它借助大数据分析、机器学习这些先进技术，就像是拥有了超级强大的“洞察力
算法随笔_21:字符的最短距离程序趣谈算法
上一篇:算法随笔_20:区间子数组个数-CSDN博客=====================题目描述如下:给你一个字符串s和一个字符c，且c是s中出现过的字符。返回一个整数数组answer，其中answer.length==s.length且answer[i]是s中从下标i到离它最近的字符c的距离。两个下标i和j之间的距离为abs(i-j)，其中abs是绝对值函数。示例1：输入：s="lovel
【优选算法】10----无重复字符的最长子串 Rhzkp 算法 c++leetcode
---------------------------------------begin---------------------------------------题目解析：看到这一类题目，有没有那种一眼就感觉时要用到滑动窗口的感觉，铁子们？讲解算法原理：方法一:暴力解法：简单粗暴的地毯式搜索暴力解法就像一个没有什么技巧的探险家，直接把所有可能的子串都找出来，然后一个一个检查是不是有重复字符，最
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

Day_61-62 决策树

Day_61-62决策树(准备工作)

一. 算法的基本概念

1. 决策树的定义

2. 如何构建决策树？

2.1 熵

2.2 信息增益原则

2.3 计算步骤

二. 示例演示

1. 第一次节点决策分类：

2. 后续节点的决策分类

3. 决策分类的结束条件

三. 代码实现

1. 主函数

2. 两个构造函数

3. 打标签函数getMajorityClass和判定纯度函数pureJudge

4. 核心代码建立决策树

4.1 判定是否结束子树构造

4.2 根据信息增益原则寻找最优属性

4.3 根据最优属性进行分类

4.4 构造孩子节点和更新节点信息

5. 输出函数

6. 准确性检验

四. 运行结果

你可能感兴趣的:(决策树,算法,机器学习)