不要做码农呀

决策树的Python实现

概述
- 决策树
- 决策树的剪枝
- 优缺点
决策树的构建
- 特征选择/计算公式
- - 不纯度
  - 香农熵(Entropy)
  - 信息增益(Information Gain)
  - 基尼(Gini)指数
  - 分支度(Information Value)
  - 信息增益率(Gain Ratio)
- 决策树的生成
- - ID3算法
  - C4.5算法
  - CART
- 决策树的剪枝
sklearn中的决策树
- 决策树的随机性控制
- 决策树中的剪枝
- 重要属性和接口
Python实现
- 导入的库
- 香农熵
- 数据集最佳切分函数
- 按照给定列切分数据集
- ID3算法
- 决策树的存储
- 使用决策树执行分类
- 使用iris数据集测试ID3算法
- 在sklearn中实现决策树
源码
参考资料

概述

决策树

决策树是一种树形结构，包括决策结点(内部结点)、分支和叶节点三部分。其中，决策结点代表某个测试，通常对应于待分类对象的某个属性，在该属性上的不同测试结果对应一个分支。每个叶节点存放某个类标号值，表示一种可能的分类结果。
决策树是一种常用的分类方法。它是一种监督学习，所谓监督学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

决策树的剪枝

剪枝是决策树停止分支的方法之一，剪枝有分预先剪枝和后剪枝两种。
预先剪枝是在树的生长过程中设定一个指标，当达到该指标时就停止生长，这样做容易产生“视界局限”，就是一旦停止分支，使得节点N成为叶节点，就断绝了其后继节点进行“好”的分支操作的任何可能性。不严格的说这些已停止的分支会误导学习算法，导致产生的树不纯度降差最大的地方过分靠近根节点。
后剪枝中树首先要充分生长，直到叶节点都有最小的不纯度值为止，因而可以克服“视界局限”。然后对所有相邻的成对叶节点考虑是否消去它们，如果消去能引起令人满意的不纯度增长，那么执行消去，并令它们的公共父节点成为新的叶节点。这种“合并”叶节点的做法和节点分支的过程恰好相反，经过剪枝后叶节点常常会分布在很宽的层次上，树也变得非平衡。

优缺点

优点：决策树易于理解和实现；易于通过静态测试来对模型进行评测，可以测定模型可信度；如果给定一个观察的模型，那么根据所产生的决策树很容易推出相应的逻辑表达式。
缺点：对连续性的字段比较难预测；对有时间顺序的数据，需要很多预处理的工作；当类别太多时，错误可能就会增加的比较快；一般的算法分类的时候，只是根据一个字段来分类。

决策树的构建

特征选择/计算公式

特征选择即决定用哪个特征来划分特征空间，其目的在于选取对训练数据具有分类能力的特征，提高决策树的学习效率。决策树需要找出最佳节点和最佳的分枝方法，而衡量这个“最佳”的指标叫做不纯度。由此还衍生出其他两个常用指标，一个是ID3中信息增益的计算方法可用熵推导，即最为人熟知的信息熵，又叫香农熵，另一个是基尼系数，主要用于CART决策树的纯度判定中。
决策树最终的优化目标是使得叶节点的总不纯度最低，即对应衡量不纯度的指标最低。

不纯度

决策树的每个叶子节点都会包含一组数据，在这组数据中，如果有某一类标签占有较大的比例，就说叶子节点“纯”，分枝分得好。某一类标签占的比例越大，叶子就越纯，不纯度就越低，分枝就越好。
如果没有哪一类标签的比例很大，各类标签都相对平均，则说叶子节点“不纯”，分枝不好，不纯度高。
定义 $t$ 代表决策树的某个节点， $D_t$ 是 $t$ 节点所对应的数据集，设第 $i$ 类样本为 $x_i$ ， $p(x_i)$ 是选择该分类的概率，这个比例越高，则代表叶子越纯。对于节点不纯度的计算和表示方法因决策树模型而异，但不管不纯度的度量方法如何，都是有误差率衍生而来，误差率越低，则纯度越高。误差率的计算公式如下：
$Classification\ \ error(t) = 1 - \max_{i=1}p(x_i)$

香农熵(Entropy)

假定当前样本集合 $D$ 中一共有 $n$ 类样本，第 $i$ 类样本为 $x_i$ ， $p(x_i)$ 是选择该分类的概率，则 $x_i$ 的信息定义为：
$l(x_i) = -log_2p(x_i)$

通过上式，可以得到所有类别的信息，为了计算熵，需要计算所有类别所有可能值包含的信息期望(数学期望)，香农熵的计算公式如下：
$-\sum_{i=1}^n p(x_i)log_2p(x_i)$

信息增益(Information Gain)

信息增益的计算公式其实就是父节点的信息熵与其下所有子节点总信息熵之差。但此时子节点的总信息熵不能简单求和，而要求在求和汇总之前进行修正。
假设离散属性 $a$ 有 $V$ 个可能的取值 ${a^1, a^2, ...... ,a^V\}$ ，若使用 $a$ 对样本数据集 $D$ 进行划分，则会产生 $V$ 个分支节点，其中第 $v$ 个分支节点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记为 $D^v$ 。根据信息熵的计算公式计算出 $D^v$ 的信息熵，再考虑到不同分支节点说包含的样本数不同，给分支节点赋予权重 $D^v|/|D|$ ，进行修正。所以，信息增益的计算公式如下：
$\sum_{v=1}^V \frac{|D^v|} {|D|}Ent(D^v)$

基尼(Gini)指数

基尼指数主要用于CART决策树的纯度判定中。假定当前样本集合 $D$ 中一共有 $n$ 类样本，第 $i$ 类样本为 $x_i$ ， $p(x_i)$ 是选择该分类的概率，基尼系数的计算公式如下：
$\sum_{i=1}^{n}[p(x_i)]^2$

分支度(Information Value)

在C4.5中，引入分支度的概念对信息增益的计算方法进行修正，简而言之，就是在信息增益计算方法的子节点总信息熵的计算方法中添加了随着分类变量水平的惩罚项。而分支度的计算公式仍然是基于熵的算法，只是将信息熵计算公式中的 $p(x_i)$ (即某类别样本占总样例数)改成了 $p(v_i)$ ，即某子节点的总样本数占父节点总样本数的比例。这个分支度指标让我们在切分的时候，自动避免那些分类水平太多，信息熵减小过快的特征影响模型，减少过拟合情况。IV计算公式如下：
$Information\ \ Value=-\sum_{i=1}^k p(v_i)log_2p(v_i)$

其中， $i$ 表示父节点的第 $i$ 个子节点， $v_i$ 表示第 $i$ 个子节点样例数， $p(v_i)$ 表示第 $i$ 个子节点拥有样例数占父节点总样例数的比例。
IV值可作为惩罚项带入子节点的信息熵计算中，IV值会随着叶子结点上的样本量的变小而逐渐变大，也就是说一个特征中如果标签分类太多，每个叶子上的IV值就会非常大。

信息增益率(Gain Ratio)

在C4.5中，使用信息增益除以分支度作为选取切分字段的参考指标，该指标被称作Gain Ratio(获利比例，或信息增益率)，其计算公式如下：
$Gain\ \ Ratio = \frac{Information\ \ Gain}{Information\ \ Value}$

信息增益率是决定对哪一列进行分枝的标准，分枝的是数值最大的那一列，本质是信息增益最大，分支度又比较小的列(也就是纯度提升很快，但又不是靠着把类别分特别细来提升的那些特征)。分支度越大，即某一列的分类水平越多，信息增益率实现的惩罚比例越大。我们希望信息增益率越大越好，即在分枝时选择最大的信息增益率切分字段。

决策树的生成

ID3算法

ID3算法的核心是在决策树的各个节点上对应信息增益准则选择特征，递归地构建决策树。具体方法是：从根节点开始，对节点计算所有可能的特征的信息增益，选择信息增益最大的特征作为节点的特征，由该特征的不同取值建立子节点；再对子节点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止，最后得到一个决策树。
递归结束的条件是：程序遍历完所有的特征列，或者每个分支下的所有实例都具有相同的分类。如果所有实例具有相同分类，则得到一个叶节点。任何打到叶节点的数据必然属于叶节点的分类，即叶节点里面必须是标签。

ID3算法的局限性

分支度越高(分类水平越多)的离散变量往往子节点的总信息熵会更小，ID3是按照某一列进行切分，有一些列的分类可能不会对我们需要的结果有足够好的指示。
不能直接处理连续型变量，若要使用ID3处理连续型变量，则首先需要对连续型变量进行离散化处理。
对缺失值较为敏感，使用ID3之前需要提前对缺失值进行处理。
没有剪枝的设置，容易导致过拟合，即在训练集上表现很好，测试集上表现很差。

C4.5算法

C4.5算法继承了ID3算法的优点，并在以下几个方面对ID3算法进行了改进：

用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
在构树的过程中进行剪枝；
能够完成对连续属性的离散化；
能够对不完整数据进行处理。

C4.5中对连续变量的处理

在C4.5中，同样还增加了针对连续变量的处理手段。如果输入特征字段是连续型变量，则有以下步骤：

算法首先会对这一列数进行从小到大的排序；
选取相邻的两个数的中间数作为切分数据集的备选点，若一个连续变量有N个值，则在C4.5的处理过程中将会产生N-1个备选切分点，并且每个切分点都代表着一种二叉树的切分方案。

CART

CART(Classification And Regression Tree)是一种十分有效的非参数分类和回归方法。CART与C4.5的区别不大，它通过构建二叉树达到预测目的。

决策树的剪枝

剪枝作为决策树后期处理的重要步骤，是必不可少的。没有剪枝，就是一个完全生长的决策树，是过拟合的，需要去掉一些不必要的节点以使得决策树模型更具有泛化能力。

决策树的剪枝方法

预剪枝(Pre-Pruning)
剪枝是在构造决策树的同时进行剪枝。所有决策树的构建方法，都是在无法进一步降低熵的情况下才会停止创建分支的过程，为了避免过拟合，可以设定一个阈值，熵减小的数量小于这个阈值，即使还可以继续降低熵，也停止继续创建分支。但是这种方法实际中的效果并不好，因为在实际中，面对不同问题，很难说有一个明确的阈值可以保证树模型足够好。
后剪枝(Post-Pruning)
后剪枝的剪枝过程是删除一些子树，然后用其叶子节点代替。这个叶节点所标识的类别用这棵子树中大多数训练样本所属的类别来标识。
决策树构造完成后进行剪枝。剪枝的过程是对拥有同样父节点的一组节点进行检查，判断如果将其合并，熵的增加量是否小于某一阈值。如果确实小，则这一组节点可以合并一个节点，其中包含了所有可能的结果。后剪枝是目前最普遍的做法。

sklearn中的决策树

决策树的随机性控制

sklearn使用集成算法构建决策树：建许多不同的树，然后从中选择最好的。在每次分枝时，不使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分枝用的节点。

随机性控制参数

random_state
random_state用来设置分枝中的随机模式的参数，默认为None，在高纬度时随机性会表现更明显，低纬度的数据，随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。
splitter
splitter也是用来控制决策树中的随机选项的，有两种输入值，输入"best"，决策树在分枝时虽然随机，但还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看)。输入"random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合，防止过拟合。

决策树中的剪枝

确认最优的剪枝参数
使用超参数的曲线进行判断。超参数的学习曲线，是一条以超参数的取值作为横坐标，模型的度量指标为纵坐标的曲线，它是用来衡量不同超参数取值下模型的表现的线。在建好的决策树中，模型的度量指标就是score

剪枝参数

max_depth
限制树的最大深度，超过设定深度的树枝全部剪掉。
这是用得最广泛的剪枝参数，在高维度低样本量时非常有效。决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合。实际使用时，建议从=3开始尝试，看看拟合的效果再决定是否增加设定深度。
min_samples_leaf & min_samples_split
min_samples_leaf限定一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。一般搭配max_depth使用，在回归树中可以让模型变得更加平滑。min_samples_leaf参数的数量设置得太小就会引起过拟合，设置得太大就会阻止模型学习数据。一般来说，建议从=5开始使用。
min_samples_split限定一个节点必须包含至少min_samples_split个训练样本(分枝前)，这个节点才允许被分枝，否则分枝就不会发生。
max_features & min_impurtiy_decrease
max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。max_features是用来限制高纬度数据的过拟合的剪枝参数，但其方法比较暴力，是直接限制可以使用的特征数量而强行使决策树停下的参数，在不知道决策树中的各个特征的重要性的情况下，强行设定这个参数可能会导致模型学习不足。如果通过降维的方式防止过拟合，建议使用PCI、ICA或者特征选择模块中的降维算法。
min_impurity_decrease限制信息增益的大小，信息增益小于设定数值的分枝不会发生。

重要属性和接口

属性
feature_importances_：查看各个特征对模型的重要性
接口
apply：输入测试集后返回每个测试样本所在叶子节点的索引
predict：输入测试集后返回每个测试样本的标签

Python实现

导入的库

# 导入常用库
import numpy as np
import pandas as pd
from matplotlib import pylot as plt
# 导入sklearn中的库
from sklearn import tree	# 导入树
from sklearn.tree import DecisionTreeClassifier		# 分类树
from sklearn.model_selection import train_test_split		# 切分数据集
import graphviz		# 绘制树

graphviz库的安装不能直接用pip安装，具体安装方法自行百度，此处不多赘述

香农熵

def calcEnt(dataSet):
    """
    计算香农熵
    :param dataSet: 原始数据集(dataFrame)
    :return: 香农熵
    """
    tag_col = -1      # 标签所在列，根据实际dataFrame确定
    n = dataSet.shape[0]        # 数据集总行数
    iset = dataSet.iloc[:, tag_col].value_counts()       # 标签的所有类别
    p = iset / n        # 每一类标签所占比
    ent = (-p * np.log2(p)).sum()       # 计算信息熵
    return ent

数据集最佳切分函数

划分数据集的最大准则是选择最大信息增益，也就是信息下降最快的方向。

def bestSplit(dataSet):
    """
    数据集最佳切分函数：根据信息增益选出最佳数据集切分的列
    :param dataSet: 原始数据集
    :return: 数据集最佳切分列的索引
    """
    baseEnt = calcEnt(dataSet)  # 计算原始熵
    bestGain = 0  # 初始化信息增益
    axis = -1  # 初始化最佳切分列，标签列，根据实际dataFrame确定
    for i in range(dataSet.shape[1] - 1):  # 对特征的每一列(除去标签列)进行循环
        levels = dataSet.iloc[:, i].value_counts().index  # 提取出当前列的所有值
        ents = 0  # 初始化子节点的信息熵
        for j in levels:  # 对当前列的每一个取值进行循环
            childSet = dataSet[dataSet.iloc[:, i] == j]  # 某一个子节点的dataframe
            ent = calcEnt(childSet)  # 计算某个子节点的信息熵
            ents += (childSet.shape[0] / dataSet.shape[0]) * ent  # 计算当前列的信息熵
        # print(f'第{i}列的信息熵为{ents}')
        infoGain = baseEnt - ents  # 计算当前列的信息增益
        # print(f'第{i}列的信息增益为{infoGain}')
        if infoGain > bestGain:  # 选择最大信息增益
            bestGain = infoGain
            axis = i
    return axis  # 返回最大信息增益所在列的索引

按照给定列切分数据集

def dataSetSpilt(dataSet, axis, value):
    """
    按照给定的列划分数据集
    :param dataSet: 原始数据集
    :param axis: 指定的列索引
    :param value: 指定的属性值
    :return: 按照指定列索引和属性值切分后的数据集
    """
    col = dataSet.columns[axis]     # 指定列的索引
    SpiltDataSet = dataSet.loc[dataSet[col] == value, :].drop(col, axis=1)
    return SpiltDataSet

ID3算法

def createTree_ID3(dataSet):
    """
    ID3算法构建决策树
    :param dataSet:原始数据集，注意标签列不能是数值
    :return: 字典形式的树
    """
    tag_col = -1  # 标签所在列，根据实际dataFrame确定
    featlist = list(dataSet.columns)        # 提取出数据集所有的列
    classlist = dataSet.iloc[:, tag_col].value_counts()      # 获取类标签
    if classlist[0] == dataSet.shape[0] or dataSet.shape[1] == 1:       # 判断最多标签数目是否等于数据集行数或者数据集是否只有一列
        return classlist.index[0]       # 若是则返回类标签
    axis = bestSplit(dataSet)       # 确定当前最佳切分列的索引
    bestfeat = featlist[axis]       # 获取该索引对应的特征
    myTree = {bestfeat: {}}     # 采用字典嵌套的方式存储树信息
    del featlist[axis]      # 删除当前特征
    valuelist = set(dataSet.iloc[:, axis])      # 提取最佳切分列的所有属性值
    for value in valuelist:     # 对每一个属性值递归建树
        myTree[bestfeat][value] = createTree_ID3(dataSetSpilt(dataSet, axis, value))
    return myTree

决策树的存储

构造决策树是很耗时的任务，因此为了节省时间，建树后应立即将其保存，后续使用直接调用即可。使用numpy中的save()函数，可以直接将字典形式的数据保存为*.npy文件，调用时直接使用load()函数即可。

树的存储

def save_tree(Tree, filename="mytree.npy"):
    """
    保存决策树
    :param filename: 保存为*.npy文件
    :param Tree: 所构建的决策树
    """
    try:
        np.save(filename, Tree)
        print("Tree Saved in " + filename)
    except Exception as e:
        print(e)
        print("Failed to Save the Tree.")

树的读取

def load_tree(filename="mytree.npy"):
    """
    加载决策树
    :param filename: 读取的*.npy文件
    :return: 决策树
    """
    try:
        Tree = np.load(filename, allow_pickle=True).item()
        return Tree
    except Exception as e:
        print(e)
        print("Failed to Load the Tree.")

使用决策树执行分类

对一个测试实例进行分类

def classify(inputTree, labels, testVec):
    """
    对一个测试实例进行分类
    :param inputTree: 已经生成的决策树
    :param labels: 存储选择的最优特征标签
    :param testVec: 测试数据列表，顺序对应原数据集
    :return: 分类结果
    """
    firstStr = next(iter(inputTree))        # 获取决策树第一个节点
    secondDict = inputTree[firstStr]        # 下一个字典
    featIndex = labels.index(firstStr)      # 第一个节点所在列的索引
    classLabel = secondDict[list(secondDict.keys())[0]]     # 标签初始化
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]) == dict:
                classLabel = classify(secondDict[key], labels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel

对测试集进行预测，并返回预测后的结果

def acc_classify(train, test, Tree):
    """
    对测试集进行预测，并返回预测后的结果
    :param train: 训练集
    :param test: 测试集
    :param Tree: 决策树
    :return: 预测好分类的测试集和准确率(tuple)
    """
    labels = list(train.columns)        # 数据集所有的名称
    row_index = test.index.to_list()
    result = pd.DataFrame(None, index=row_index, columns=["predict"])       # 初始化result，dataframe类型
    for i in range(test.shape[0]):      # 对测试集中每一行数据(每一个实例)进行循环
        testVec = test.iloc[i, :-1]     # 取出每行的数据部分；标签列是最后一列，根据实际dataframe确定
        classLabel = classify(Tree, labels, testVec)       # 预测该实例的分类
        result.iloc[i, 0] = classLabel      # 将分类结果追加到result列表中
    test = pd.concat([test, result], axis=1)        # 拼接两个dataframe
    acc = (test.iloc[:, -1] == test.iloc[:, -2]).mean()     # 计算准确率；最后一列为预测结果，倒数第二列为标签列
    return test, acc     # 返回测试集和准确率

使用iris数据集测试ID3算法

def ID3():
    data = datasets.load_iris()     # 加载数据集
    dataset = Bunch2dataframe(data)
    target_col = -1
    # 标签列不可为数值，故对标签列进行处理
    for i in range(len(dataset)):
        if dataset.iloc[i, target_col] == 0:
            dataset.iloc[i, target_col] = 'a'
        elif dataset.iloc[i, target_col] == 1:
            dataset.iloc[i, target_col] = 'b'
        elif dataset.iloc[i, target_col] == 2:
            dataset.iloc[i, target_col] = 'c'
    print(dataset)
    train, test = train_test_split(dataset, test_size=0.3)      # 切分训练集和测试集
    mytree = createTree_ID3(train)      # 构建决策树
    save_tree(mytree)
    tree_model = load_tree()
    print(tree_model)
    test_result, score = acc_classify(train, test, tree_model)      # 对测试集进行预测并给出准确率
    print(test_result)
    print(score)

在sklearn中实现决策树

sklearn中使用的是CART

训练模型

def best_depth_tree(train, test):
    """
    调参得到最佳的max_depth值并返回对应训练后的模型
    :param train: 训练集
    :param test: 测试集
    :return: 训练后的模型列表和测试集预测准确率最大值的索引
    """
    train_score_list = []
    test_score_list = []
    clf_list = []
    max_test_depth = 10     # 最大树深(超参数上限)
    train_data = train.iloc[:, :-1]
    train_target = train.iloc[:, -1]
    test_data = test.iloc[:, :-1]
    test_target = test.iloc[:, -1]
    for i in range(max_test_depth):
        clf = DecisionTreeClassifier(criterion="entropy",
                                     max_depth=i+1,
                                     random_state=30,
                                     splitter="random"
                                     )
        clf = clf.fit(train_data, train_target)     # 训练模型
        score_train = clf.score(train_data, train_target)       # 训练集预测准确率
        score = clf.score(test_data, test_target)       # 测试集预测准确率
        train_score_list.append(score_train)
        test_score_list.append(score)
        clf_list.append(clf)
    plt.plot(range(1, max_test_depth+1), train_score_list, color="blue", label="train")        # 绘制分数曲线
    plt.plot(range(1, max_test_depth+1), test_score_list, color="red", label="test")
    plt.legend()
    plt.show()
    return clf_list, test_score_list.index(max(test_score_list))

保存决策树为*.pdf文件

def Draw_tree(clf, filename, feature_names=None, class_names=None):
    """
    绘制决策树并保存为*.pdf文件
    :param clf: 训练后的模型
    :param filename: 保存的文件名
    :param feature_names: 特征名
    :param class_names: 标签名
    :return: None
    """
    dot_data = tree.export_graphviz(clf,
                                    out_file=None,
                                    feature_names=feature_names,
                                    class_names=class_names,
                                    filled=True,
                                    rounded=True)
    graph = graphviz.Source(dot_data)
    graph.render(filename)
    print("Done.")

使用wine数据集进行测试

def sklearn():
    data = datasets.load_wine()     # 加载数据集
    dataset = Bunch2dataframe(data)     # 转换成dataframe类型进行处理，最后一列为标签列
    train, test = train_test_split(dataset)     # 切分训练集和测试集
    feature_names = dataset.columns[:-1]        # 获取特征名
    clf_list, i = best_depth_tree(train, test)      # 训练模型
    print("max_depth: " + str(i+1))
    clf = clf_list[i]     # 选取测试集预测准确率最大值的模型
    Draw_tree(clf, "wine", feature_names=feature_names)     # 绘制决策树

源码

完整代码放在GitHub

参考资料

[1] 决策树-百度百科
[2] 菊安酱的机器学习-哔哩哔哩
[3] Python算法之决策树-哔哩哔哩
[4] 决策树剪枝(cart剪枝)的原理介绍-CSDN

你可能感兴趣的:(机器学习,python,机器学习,决策树)

潇洒郎： Python获取设备已连接的所有WIFi账号和密码潇洒郎 Python学习 python WiFi账号和密码
Python获取设备已连接的所有WIFi账号和密码如果你忘记了密码，可以使用这个脚本获取，不要使用非法用途哦！#coding=utf8#User:Administrator#Date:2024/11/5#Time:13:02importsubprocessimportjsondefsub_cmd(cmd):res=subprocess.getoutput(cmd)returnresdefget_a
一.组合数据类型：列表 muxue178 python 开发语言
1.下标下标从零开始name_list=['python','php','java']print(name_list)print(name_list[0])print(name_list[2])运行结果['python','php','java']pythonjava2.查找函数index()count()len()1.index()name_list=['zhangsan','lisi','wa
第19篇：python高级编程进阶：使用Flask进行Web开发猿享天开 python从入门到精通 python 开发语言
第19篇：python高级编程进阶：使用Flask进行Web开发内容简介在第18篇文章中，我们介绍了Web开发的基础知识，并使用Flask框架构建了一个简单的Web应用。本篇文章将深入探讨Flask的高级功能，涵盖模板引擎（Jinja2）、表单处理、数据库集成以及用户认证等主题。通过系统的讲解和实战案例，您将掌握构建功能更为丰富和复杂的Web应用所需的技能。目录Flask的深入使用Flask扩展蓝
第18篇：python高级编程进阶：Web开发基础详解猿享天开 python从入门到精通 python 开发语言
第18篇：Web开发基础内容简介本篇文章将为您介绍Web开发基础的核心概念和实用技能。您将了解Web开发的基本概念和流程，掌握HTTP协议的基础知识，学习如何使用Flask框架构建简单的Web应用，并深入理解路由与视图函数的工作原理。通过丰富的代码示例和实战案例，您将能够快速入门Web开发，搭建自己的第一个Web应用。目录Web开发概述什么是Web开发前端与后端开发Web开发的技术栈HTTP协议基
大数据学习（七）Python3操作livy（使用pylivy模块）猪笨是念来过倒大数据大数据 python
Livy是一个用于与Spark交互的开源REST接口。pylivy是Livy的Python客户端，可以在Spark集群上轻松实现远程代码执行。安装$pipinstall-Ulivy请注意，pylivy需要Python3.6或更高版本。用法所述LivySession类的主界面提供由pylivy：from
python multiprocessing iteye_20379 python
importmultiprocessingimportmathdeffactorize_naive(n):"""Anaivefactorizationmethod.Takeinteger'n',returnlistoffactors."""ifn=n:factors.append(n)returnfactorselifp>2:#Advanceinstepsof2overoddnumbersp+=2
Python进阶—高级语法 Echo.py Python基础语法 python 开发语言
目录文章目录目录1、在==和is之间选择2、元组的相对不可变性3、字典中的键映射多个值4、Linux5、python中字典的key要求6、编码7、进制之间的转换8、关系运算符(时间处理)9、时间处理模块❶常用时间处理方法❷转化为13位时间戳10、三元运算符11、成员运算符12、For循环机制13、变量的分类14、闭包(函数的嵌套)15、函数(方法)的执行流程16、匿名函数17、Django和Fla
对本地部署的ChatGLM模型进行API调用 BBluster LLM python 开发语言语言模型
ChatGLM作为一个小参数模型，给予了我们在本地部署LLM的条件，接下来我将展示如何使用python对本地部署的ChatGLM模型进行API调用对于如何部署本地ChatGLM模型我们可以访问本地化部署大语言模型ChatGLM接下来我首先分享api调用的测试代码：importtimeimportrequests#测试GPU运行是否成功deftest_function_1():importtorch
Traceback包【持续更新】 BBluster python python
Traceback包简介traceback是Python标准库中的一个模块，它提供了一组用于提取、格式化和打印程序执行过程中的堆栈跟踪信息的工具。当程序发生异常且未被捕获时，Python会自动生成一个堆栈跟踪，显示出错的位置和调用栈。这有助于开发者理解和调试程序中出现的问题。主要功能当程序发生异常时，traceback模块可以用来捕获和格式化相关的堆栈信息。这有助于开发者快速定位问题所在。格式化的
Python timeit的使用 egzosn python 开发语言
假设您要测量代码段的执行时间。你是做什么？直到现在，我就像大多数人一样会做以下事情：登录后复制#导入时间start_time=time.time()"""某些代码"""end_time=time.time()print(f“执行时间为：{end_time-start_time}”)1.2.3.4.5.现在说我们要比较两个不同函数的执行时间，然后：登录后复制#导入时间deffunction_1(*参
Python多进程 multiprocessing 培之编程语言 python 机器学习开发语言
在大数据时代，Python已经成为最受追捧的语言。在本文中，让我们专注于Python的一个特定方面，它使其成为最强大的编程语言之一——Multi-Processing。在阅读本文之前，我建议您阅读我之前关于Python中的线程的文章，因为它可以为当前文章提供更好的上下文。多进程是什么？假设你是一名小学生，你的作业是让1200对数字相乘，这让你感到麻木。假设您能够在3秒内将一对数字相乘。那么总共需要
Python 并发 multiprocessing-Process lainegates python Python multiprocess
＊multiprocessing支持子进程、通信和共享数据、执行不同形式的同步。＊Process创建进程的类：Process([group[,target[,name[,args[,kwargs]]]]])，target表示调用对象，args表示调用对象的位置参数元组。kwargs表示调用对象的字典。Name为别名。Group实质上不使用。方法有：is_alive()、.join([timeout
python+playwright自动化测试(四)：元素操作(键盘鼠标事件)、文件上传觅远 python 自动化测试爬虫 python 自动化
目录鼠标事件悬停移动按键点击滚轮操作拖拽键盘事件输入文本内容type输入内容fill输入内容按键操作press文件上传下拉选/单选框/复选框滚动条操作鼠标事件悬停page.get_by_text('设置',exact=True).nth(1).hover()移动page.mouse.move(x=33,y=50)按键#点击操作可设置button参数，选择点击键["left","middle","r
Flask --（2）Flask 框架的诞生 feiyy404 flask
Flask诞生于2010年，是Arminronacher（人名）用Python语言基于Werkzeug工具箱编写的轻量级Web开发框架。Flask本身相当于一个内核，其他几乎所有的功能都要用到扩展（邮件扩展Flask-Mail，用户认证Flask-Login），都需要用第三方的扩展来实现。比如可以用Flask-extension加入ORM、窗体验证工具，文件上传、身份验证等。Flask没有默认使用
LangServe：快速部署和运行LangChain的实用指南 AWsggdrg langchain python
LangServe：快速部署和运行LangChain的实用指南在AI应用开发领域，LangServe为开发者提供了便利的方式，将LangChain的运行单元和链路部署为RESTAPI。本文将通过技术解析和实战示例，带您深入了解LangServe的强大功能和应用场景。1.技术背景介绍LangServe是一个基于Python的库，整合了FastAPI和Pydantic技术，用于将LangChain的运
华为OD机试E卷 --矩形相交的面积--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码题目描述给出3组点坐标(x，y,w,h)，-1000
第17篇：python进阶：详解数据分析与处理猿享天开 python从入门到精通 python 开发语言
第17篇：数据分析与处理内容简介本篇文章将深入探讨数据分析与处理在Python中的应用。您将学习如何使用pandas库进行数据清洗与分析，掌握matplotlib和seaborn库进行数据可视化，以及处理大型数据集的技巧。通过丰富的代码示例和实战案例，您将能够高效地进行数据处理、分析和可视化，为数据驱动的决策提供有力支持。目录数据分析与处理概述什么是数据分析与处理数据分析的流程使用pandas进行
深入解析 Python Flask: 架构、应用与实现实例汪子熙 Python python flask 架构
Flask是Python生态圈中的一个重要Web框架。它之所以被广泛使用，得益于其轻量、模块化和易于扩展的特点。本文将通过逐步解析PythonFlask的定义、架构、典型应用场景、核心功能模块，以及通过具体实例来展示如何使用Flask构建一个完整的Web应用。每个章节都将带领你深入理解Flask的各个方面，从而为你掌握这门强大工具提供坚实的理论和实践基础。什么是Flask？Flask是一个基于Py
Python异步: 什么时候使用异步？后端python
从广义上讲，Asyncio是新的、流行的、讨论广泛的和令人兴奋的。然而，对于何时应该在项目中采用它存在很多困惑。我们什么时候应该在Python中使用asyncio？在Python中使用Asyncio的原因在Python项目中使用asyncio可能有3个原因：使用asyncio以便在您的程序中采用协程。使用asyncio以使用异步编程范例。使用asyncio以使用非阻塞I/O。1.1.使用协程我们可
Python 常用运维模块之OS模块篇阿俊仔（摸鱼版） python学习系列 python 运维开发语言云服务器
Python常用运维模块之OS模块篇OS模块获取当前工作目录更改当前工作目录返回当前目录路径返回上一级目录路径递归生成目录路径删除目录创建目录删除目录列出特定目录下文件和子目录删除某个特定文件重命名某个文件获取某个文件/目录的信息输出目录路径分隔符输出文件行终止符输出用于分隔文件路径的字符串输出当前操作系统的名称获取当前系统的环境变量判断是否有权限执行操作修改文件的权限修改文件的属主和属组创建软连
Python笔记 Lucky_1129 笔记 python 笔记
Python笔记1.Python数组和列表的区别1.创建方式不同列表可以直接创建，数组需要引用numpy包2.存储对象不同列表可以存储任何的对象，包括数字，字符串，数组，字典等等数组只能存储单一的数据类型3.运算方式不同数组可以进行四则运算，列表只能使用加号进行拼接，拼接之后形成一个新的列表4.运算效率不同array数组是为了精确便捷的处理庞大的类似的数据而产生的，他的存储效率要比列表快着很多2.
python list常用方法_Python 列表 list 数组 array 常用操作集锦 weixin_39890289 python list常用方法
Python中的列表(list)类似于C#中的可变数组（ArrayList），用于顺序存储结构。创建列表sample_list=['a',1,('a','b')]Python列表操作sample_list=['a','b',0,1,3]得到列表中的某一个值value_start=sample_list[0]end_value=sample_list[-1]删除列表的第一个值delsample_li
Python数据分析与可视化研究阿尔法星球 python python 数据分析开发语言
Python数据分析与可视化研究摘要随着大数据和人工智能技术的飞速发展，Python数据分析与可视化技术已成为现代科学研究、企业决策等领域不可或缺的工具。本研究全面梳理了Python在数据分析与可视化领域的基本理论框架和关键技术，系统分析了Pandas、NumPy等核心数据分析库以及Matplotlib、Seaborn等可视化库的应用优势与特点。通过实际案例，本研究深入探讨了Python在数据清洗
《CPython Internals》阅读笔记：p336-p352 python
《CPythonInternals》学习第17天，p336-p352总结，总计17页。一、技术总结1.GDBGDB是GNUDbugger的缩写。(1)安装sudoaptinstallgdb(2)创建.gdbinit文件touch~/.gdbinitvim~/.gdbinit(3)配置.gdbinit文件add-auto-load-safe-path/project/cpython注：1./proj
提升Python性能：数据结构与算法优化指南步入烟尘 Python超入门指南全册 python 开发语言
优化Python中的数据结构与算法Python是一种强大而灵活的编程语言，它提供了丰富的数据结构和算法库，但是在处理大规模数据或者需要高效运行的情况下，需要考虑一些优化技巧。本文将介绍一些Python中常用的数据结构与算法优化技巧，并附带代码实例，帮助你更好地理解和运用。1.使用内置数据结构Python提供了许多内置的数据结构，如列表、字典、集合等，它们在大多数情况下都能满足需求，并且具有良好的性
可以与 FastAPI 不分伯仲的 Python 著名的 Web 框架程序员小麦 fastapi python 前端服务器 excel 开发语言
正如你所理解的，任何领域都不可能停止进步，不断使用相同的工具意味着不思进取。这一点在信息技术领域，尤其是网络开发行业非常明显。关于网络框架，不论是Django和Flask等传统框架还是Python的新型高级框架，一直有着新的框架不断出现，它们正在挤掉传统和成熟的技术，它们特征更好、编码更方便、更简单、更快捷。众所周知的Pythonweb框架Django该网络框架是最流行的Python网络框架之一。
【CV】25.1.7 arxiv更新速递 hinmer arxiv CV每日更新 python 人工智能计算机视觉 chatgpt 目标检测 ai AIGC
—第1篇----关键词:手势识别,计算机视觉,低光照条件,机器学习,RaspberryPi,OpenCV论文链接-摘要:手势识别是一种基于计算机视觉技术的感知用户界面，允许计算机将人类动作解释为命令，使用户无需使用手与计算机交流，从而使鼠标和键盘变得多余。手势识别的主要弱点是光线条件，因为手势控制依赖于摄像头。摄像头用于在2D和3D中解释手势，因此提取的信息可能因光源而异。系统的限制是无法在黑暗环
python爬虫报错日记雁于飞笔记经验分享其他 python 爬虫网络爬虫
python爬虫报错日记类未定义原因：代码检查没有问题**，位置错了**，测试代码包含在类里……UnicodedecodeError错误原因：字符没有自动转换成utf-8格式KeyError：“href”原因：前面运行正常，有异常路由，加个判断写入文件乱码原因：获取正常，写入时encoding异常，不会自动转换成“utf-8”同上3
Ollama 完整教程：本地 LLM 管理、WebUI 对话、PythonJava 客户端 API 应用 web13765607643 java
随着大语言模型（LLM）的普及和应用场景的广泛扩展，Ollama提供了一个强大的本地LLM管理工具，支持WebUI对话功能，同时还为Python和Java提供了灵活的客户端API。本教程将详细介绍如何使用Ollama工具，涵盖从本地安装、模型管理、WebUI聊天界面到通过Python和Java进行集成的全方位应用。一、Ollama简介Ollama是一款用于本地运行大语言模型的工具，支持对LLM模型
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

决策树的Python实现

目录

概述

决策树

决策树的剪枝

优缺点

决策树的构建

特征选择/计算公式

不纯度

香农熵(Entropy)

信息增益(Information Gain)

基尼(Gini)指数

分支度(Information Value)

信息增益率(Gain Ratio)

决策树的生成

ID3算法

C4.5算法

CART

决策树的剪枝

sklearn中的决策树

决策树的随机性控制

决策树中的剪枝

重要属性和接口

Python实现

导入的库

香农熵

数据集最佳切分函数

按照给定列切分数据集

ID3算法

决策树的存储

使用决策树执行分类

使用iris数据集测试ID3算法

在sklearn中实现决策树

源码

参考资料

你可能感兴趣的:(机器学习,python,机器学习,决策树)