MCMer

西瓜书学习笔记---第四章决策树

一、题目要求

二、数据集介绍

三、决策树模型

3.1 决策树模型介绍

3.2 决策树算法原理

3.2.1 决策树的建立

3.2.2 决策树的划分（1）—信息增益ID3

3.2.3 决策树的划分（2）—Gini指数CART

3.2.4 预剪枝pre-pruning

3.2.5 后剪枝post-pruning

3.3 决策树算法核心代码解释

四、运行结果

五、附件（见我的资源）

一、题目要求

4.3 编程实现基于信息熵进行划分选择的决策树算法，并为西瓜数据集3.0中的数据生成一颗决策树。

4.4 编程实现基于基尼指数进行划分选择的决策树算法，为西瓜数据集2.0生成预剪枝、后剪枝决策树，并与未剪枝决策树进行比较。

4.6 选择4个UCI数据集，对上述2种算法产生的未剪枝，预剪枝，后剪枝的决策树进行实验比较，并进行适当的统计显著性检验。

二、数据集介绍

本次实验使用到三个数据集，分别是西瓜数据集2.0 ，西瓜数据集3.0，UCI分类数据集中的糖尿病数据集“Diabetes.xls”和乳腺癌数据集“breast_cancer.csv”。

西瓜数据集2.0包含17条信息，每条信息对应西瓜的6种属性（色泽、根蒂、敲声、纹理、脐部、触感），给出了该西瓜是否为好瓜，“是”表示该西瓜是好瓜，“否”表该西瓜不是好瓜。西瓜数据集2.0分为训练集和验证集两部分，其中训练集10条数据，验证集7条数据。西瓜数据集2.0的具体内容如下图所示。

西瓜数据集3.0包含17条信息，是对西瓜数据集2.0的扩展，在原来的基础上增加两个连续属性“密度”和“含糖率”。每条信息对应西瓜的8种属性（色泽、根蒂、敲声、纹理、脐部、触感、密度、含糖率），给出了该西瓜是否为好瓜，“是”表示该西瓜是好瓜，“否”表该西瓜不是好瓜。西瓜数据集3.0的具体内容如下图所示。

鸢尾花“Iris”数据集共包含150条信息，每条信息对应鸢尾花的4种属性（花萼长度，花萼宽度，花瓣长度，花瓣宽度）均为连续变量，并给出了该鸢尾花的分类（setosa，virginica，versicolor）。

气球“Balloons Data”数据集共包含20条信息，每条信息对应4种属性（color，size，act，age）均为离散变量，并给出了判断结果T,F。

红酒“Wine”数据集共包含178条信息，每条信息对应红酒的13种属性（Alcohol, Malic acid, Ash, Alcalinity of ash, Magnesium, Total phenols，Flavanoids，Nonflavanoid phenols，Proanthocyanins，Color intensity，Hue，OD280/OD315 of diluted wines，Proline）均为连续变量，并给出了该红酒的分类（wine_1, wine_2, wine_3）。

三、决策树模型

3.1 决策树模型介绍

决策树是经典的分类模型，常用于二分类。决策树通过监督学习的方式生成一个树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。

每次都找不同的切分点，将样本空间逐渐进行细分，最后把属于同一类的空间进行合并，就形成了决策边界，树的层次越深，决策边界的切分就越细，区分越准确，同时也越有可能产生过拟合。

决策树学习算法主要由三部分构成：特征选择，决策树生成，决策树剪枝。

3.2 决策树算法原理

3.2.1 决策树的建立

决策树的建立遵循如下流程：

决策树的生成是一个递归过程，在决策树基本算法中，有三种情形会导致递归返回：（1）当前结点包含的样本完全属于同一类别，无需划分；（2）当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；（3）当前结点包含的样本集为空，不能划分。

3.2.2 决策树的划分（1）—信息增益ID3

·信息熵(Entropy)

信息熵(Entropy) 是度量样本集合纯度最常用的一种指标，假定当前样本集合D中第k类样本所占的比例为，则D的信息熵定义为：

的值越小，则D的纯度越高，其中若，则定义。

离散属性有V个可能的取值，用来进行划分，则会产生V个分支结点，其中第个分支结点包含了D中所有在属性a上取值为的样本，记为。则可计算出用属性对样本集D进行划分所获得的“信息增益”:

一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。ID3决策树学习算法以信息增益为准则来选择划分属性。ID3算法的核心是在决策树的各个结点上应用信息增益准则进行特征选择。具体做法是：

· 从根节点开始，对结点计算所有可能特征的信息增益，选择信息增益最大的特征作为结点的特征，并由该特征的不同取值构建子节点；
· 对子节点递归地调用以上方法，构建决策树；
· 直到所有特征的信息增益均很小或者没有特征可选时为止。
判断数据集中的每个子项是否属于同一类：

判断数据集中的每个子项是否属于同一类：

if true:

return 类标签；

else:

寻找划分数据集的最佳特征

根据最佳特征划分数据集

创建分支节点

for 每个划分的子集

递归调用createBranch();

return 分支节点

3.2.3 决策树的划分（2）—Gini指数CART

CART与ID3区别： CART中用于选择变量的不纯性度量是Gini指数；如果目标变量是标称的，并且是具有两个以上的类别，则CART可能考虑将目标类别合并成两个超类别（双化）；如果目标变量是连续的，则CART算法找出一组基于树的回归方程来预测目标变量。

Gini 指数

分类问题中假设有K个类，样本点属于第 k个类的概率为pk，则概率分布的基尼指数为定义为：

对于二分类问题和给定的样本集合D其基尼指数为:

若样本集合D根据特征A是否取某一可能的值a分割为D1,D2两部分，则在特征A的条件下集合D的基尼指数定义为:

反映了数据集D的纯度，值越小，纯度越高。我们在候选集合中选择使得划分后基尼指数最小的属性作为最优化分属性。

CART是一棵二叉树，采用二元切分法，每次把数据切成两份，分别进入左子树、右子树。而且每个非叶子节点都有两个孩子，所以CART的叶子节点比非叶子多1。相比ID3和C4.5，CART应用要多一些，既可以用于分类也可以用于回归。CART分类时，使用基尼指数（Gini）来选择最好的数据分割的特征，gini描述的是纯度，与信息熵的含义相似。CART中每一次迭代都会降低GINI系数。

算法流程：

1. CART回归树预测回归连续型数据，假设X与Y分别是输入和输出变量，并且Y是连续变量。在训练数据集所在的输入空间中，递归的将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉决策树。

2. 选择最优切分变量j与切分点s：遍历变量j，对规定的切分变量j扫描切分点s，选择使下式得到最小值时的对。其中是被划分的输入空间，是空间对应的固定输出值。

3. 用选定的对，划分区域并决定相应的输出值。

4. 继续对两个子区域调用上述步骤，将输入空间划分为M个区域,生成决策树。

3.2.4 预剪枝pre-pruning

        预剪枝就是在树的构建过程（只用到训练集），设置一个阈值（样本个数小于预定阈值或GINI指数小于预定阈值），使得当在当前分裂节点中分裂前和分裂后的误差超过这个阈值则分列，否则不进行分裂操作。所有决策树的构建方法，都是在无法进一步降低熵的情况下才会停止创建分支的过程，为了避免过拟合，可以设定一个阈值，熵减小的数量小于这个阈值，即使还可以继续降低熵，也停止继续创建分支。但是这种方法实际中的效果并不好。

        在划分之前，所有样本集中于根节点，若不进行划分，该节点被标记为叶节点，其类别标记为训练样例最多的类别。若进行划分在测试集上的准确率小于在根节点不进行划分的准确率，或增幅没有超过阈值，都不进行划分，作为一个叶节点返回当前数据集中最多的标签类型。

        优点：快速，可以在构建决策树时进行剪枝，显著降低了过拟合风险。由于预剪枝不必生成整棵决策树，且算法相对简单，效率很高，适合解决大规模问题。但是尽管这一方法看起来很直接，但是怎样精确地估计何时停止树的增长是相当困难的。
        缺点：预剪枝基于贪心思想，本质上禁止分支展开，给决策树带来了欠拟合的风险。因为视野效果问题。也就是说在相同的标准下，也许当前的扩展会造成过度拟合训练数据，但是更进一步的扩展能够满足要求，也有可能准确地拟合训练数据。这将使得算法过早地停止决策树的构造。

3.2.5 后剪枝post-pruning

        决策树构造完成后进行剪枝。剪枝的过程是对拥有同样父节点的一组节点进行检查，判断如果将其合并，熵的增加量是否小于某一阈值。如果确实小，则这一组节点可以合并一个节点，其中包含了所有可能的结果。后剪枝是目前最普遍的做法。

        后剪枝的剪枝过程是删除一些子树，然后用其叶子节点代替，这个叶子节点所标识的类别通过大多数原则(majority class criterion)确定。所谓大多数原则，是指剪枝过程中, 将一些子树删除而用叶节点代替,这个叶节点所标识的类别用这棵子树中大多数训练样本所属的类别来标识。相比于前剪枝，后剪枝方法更常用，是因为在前剪枝方法中精确地估计何时停止树增长很困难。

        优点：欠拟合风险小，泛化性能好。

        缺点：在生成决策树之后完成，自底向上对所有非叶节点进行逐一考察，训练的时间开销较大。
3.3 决策树算法核心代码解释
1. 离散数据集划分

def split_discrete_dataset(dataset, feature_index, value):
# dataset:待划分集合, feature_index:指示划分所依据的属性, value:该属性用于划分的取值
    dataset_out = []  # 为return dataset 返回一个列表
    for featVec in dataset:  # 抽取符合条件的特征值
        if featVec[feature_index] == value:
            reduced_feat = featVec[:feature_index]  # 该特征之前的特征仍然保留在dataset中
            reduced_feat.extend(featVec[feature_index + 1:])  # 该特征之后的特征仍然保留在样本中
            dataset_out.append(reduced_feat)  # 把去除掉feature_index特征的样本加入到list
    return dataset_out

2. 连续数据集划分

def split_continuous_dataset(dataset, feature_index, value):
    dataset_out_0 = []
    dataset_out_1 = []
    for featVec in dataset:
        if featVec[feature_index] > value:
            reduced_feat_1 = featVec[:feature_index]  # 该特征之前的特征仍然保留在dataset中
            reduced_feat_1.extend(featVec[feature_index + 1:])  # 该特征之后的特征仍然保留在样本中
            dataset_out_1.append(reduced_feat_1)
        else:
            reduced_feat_0 = featVec[:feature_index]  # 该特征之后的特征仍然保留在dataset中
            reduced_feat_0.extend(featVec[feature_index + 1:])  # 该特征之后的特征仍然保留在样本中
            dataset_out_0.append(reduced_feat_0)
    return dataset_out_0, dataset_out_1  # 返回两个集合，分别为大于和小于该value

3. ID3算法实现

ID3算法核心有三部分，一分别是信息熵的计算，按照信息增益选取最优特征，已及ID3决策树的生成。

# 计算数据集的信息熵(Information Ent)
def calc_InfoEnt(dataset):  # dataset每一列是一个属性(列末是label)
    num_entries = len(dataset)  # dataset每一行是一个样本
    label_counts = {}  # 给所有可能的分类创建字典label_counts
    for featVec in dataset:  # 按行循环
        current_label = featVec[-1]  # featVec的最后一个值为label
        if current_label not in label_counts.keys():  # 如果当前label还未在字典中出现
            label_counts[current_label] = 0  # 创建该label的key
        label_counts[current_label] += 1  # 统计每一类label的数量
    InfoEnt = 0.0  # 初始化InfoEnt信息熵的值
    for key in label_counts:
        p = float(label_counts[key]) / num_entries  # 求出每一类label的概率
        InfoEnt -= p * np.math.log(p, 2)  # 信息熵计算公式
    return InfoEnt

# 根据InfoGain选择当前最好的划分特征(以及对于连续变量还要选择以什么值划分)
def ID3_best_split(dataset, label):
    feat_num = len(dataset[0]) - 1  # 根据dataset判断要划分的特征的数量
    base_Ent = calc_InfoEnt(dataset)  # 计算初始Ent
    best_infoGain = 0.0  # 初始化信息增益率
    best_feature = -1
    best_split = -1
    best_split_dict = {}
    for i in range(feat_num):
        # 遍历所有特征：取每一行的第i个，即得当前集合所有样本第i个feature的值
        feat_list = [example[i] for example in dataset]
        # 判断是否为离散特征
        if not (type(feat_list[0]).__name__ == 'float' or type(feat_list[0]).__name__ == 'int'):
            # 对于离散特征：求若以该特征划分的增熵
            unique_vals = set(feat_list)  # 从列表中创建集合set(获得得列表唯一元素值)
            new_Ent = 0.0
            for value in unique_vals:  # 遍历该离散特征每个取值
                sub_dataset = split_discrete_dataset(dataset, i, value)  # 计算每个取值的熵
                p = len(sub_dataset) / float(len(dataset))
                new_Ent += p * calc_InfoEnt(sub_dataset)  # 各取值的熵累加
            infoGain = base_Ent - new_Ent  # 得到以该特征划分的熵增
            print(u"ID3中第%d个特征的信息增益为：%.3f" % (i, infoGain))
            # 对于连续特征：求若以该特征划分的增熵(n个数据需要添加n-1个候选划分点，并选择最佳划分点)
        else:
            # 产生n-1个候选划分点
            sort_feat_list = sorted(feat_list)
            split_list = []
            for j in range(len(sort_feat_list) - 1):  # 产生n-1个候选划分点
                split_list.append(round(((sort_feat_list[j] + sort_feat_list[j + 1]) / 2.0), 3))
            best_split_Ent = 10000
            # 遍历n-1个候选划分点：求第j个候选划分点划分时的增熵，并选择最佳划分点
            for j in range(len(split_list)):
                value = split_list[j]
                new_Ent = 0.0
                new_dataset = split_continuous_dataset(dataset, i, value)
                sub_dataset_0 = new_dataset[0]
                sub_dataset_1 = new_dataset[1]
                p0 = len(sub_dataset_0) / float(len(dataset))
                new_Ent += p0 * calc_InfoEnt(sub_dataset_0)
                p1 = len(sub_dataset_1) / float(len(dataset))
                new_Ent += p1 * calc_InfoEnt(sub_dataset_1)
                if new_Ent < best_split_Ent:
                    best_split_Ent = new_Ent
                    best_split = j
            best_split_dict[label[i]] = split_list[best_split]  # 字典记录当前连续属性的最佳划分点
            infoGain = base_Ent - best_split_Ent  # 计算以该节点划分的熵增
            print(u"ID3中第%d个特征的信息增益为：%.3f" % (i, infoGain))
        # 在所有属性(包括连续和离散)中选择可以获得最大熵增的属性
        if infoGain > best_infoGain:
            best_infoGain = infoGain
            best_feature = i
    # 若当前节点的最佳划分特征为连续特征，则需根据“是否小于等于其最佳划分点”进行二值化处理
    if type(dataset[0][best_feature]).__name__ == 'float' or \
            type(dataset[0][best_feature]).__name__ == 'int':
        best_split_value = best_split_dict[label[best_feature]]
        label[best_feature] = label[best_feature] + '<=' + str(best_split_value)
        for i in range(np.shape(dataset)[0]):
            if dataset[i][best_feature] <= best_split_value:
                dataset[i][best_feature] = 1
            else:
                dataset[i][best_feature] = 0
    return best_feature

# 递归产生决策树
def ID3_createTree(dataset, labels, data_full, labels_full, data_test):
    class_list = [example[-1] for example in dataset]
    if class_list.count(class_list[0]) == len(class_list):
        # 类别完全相同，停止划分
        return class_list[0]
    if len(dataset[0]) == 1:
        # 遍历完所有特征时返回出现次数最多的
        return majorityCnt(class_list)
    temp_labels = copy.deepcopy(labels)
    best_feat = ID3_best_split(dataset, labels)
    best_featLabel = labels[best_feat]
    print(u"此时最优索引为：" + best_featLabel)
    ID3_Tree = {best_featLabel: {}}
    feat_values = [example[best_feat] for example in dataset]
    unique_vals = set(feat_values)
    unique_vals_full = set()
    if type(dataset[0][best_feat]).__name__ == 'str':
        current_label = labels_full.index(labels[best_feat])
        feat_values_full = [example[current_label] for example in data_full]
        unique_vals_full = set(feat_values_full)
    del (labels[best_feat])  # 划分完后, 即当前特征已经使用过了, 故将其从“待划分特征集”中删去
    # 针对当前用于划分的特征(beat_Feat)的每个取值，划分出一个子树
    for value in unique_vals:  # 遍历该特征余下的取值
        sub_labels = labels[:]
        if type(dataset[0][best_feat]).__name__ == 'str':
            unique_vals_full.remove(value)  # 划分后删去
        ID3_Tree[best_featLabel][value] = ID3_createTree(split_discrete_dataset(dataset, best_feat, value), sub_labels,
                                                         data_full, labels_full, data_test)
    # 连续特征在划分后处理成离散取值
    if type(dataset[0][best_feat]).__name__ == 'str':
        for value in unique_vals_full:
            # 因为那些现有数据集中没取到的该特征的值，保留在了其中
            ID3_Tree[best_featLabel][value] = majorityCnt(class_list)
    if pre_pruning is True:
        if tree_acc(ID3_Tree, data_test, temp_labels) >= major_acc(majorityCnt(class_list), data_test):
            return majorityCnt(class_list)

    return ID3_Tree

4. CART算法实现

CART算法核心有三部分，一分别是Gini值的计算，按照Gini选取最优特征，已及CART决策树的生成。

# Gini值的计算
for i in range(feat_num):
        # 遍历所有特征：取每一行的第i个，即得当前集合所有样本第i个feature的值
        feat_list = [example[i] for example in dataset]
        unique_vals = set(feat_list)  # 从列表中创建集合set(获得得列表唯一元素值)
        gini = 0.0
        for value in unique_vals:
            sub_dataset = split_discrete_dataset(dataset, i, value)  # 计算每个取值的熵
            p = len(sub_dataset) / float(len(dataset))
            sub_p = len(split_discrete_dataset(sub_dataset, -1, '坏瓜')) / float(len(sub_dataset))
            gini += 2 * p * sub_p * (1 - sub_p)
        # print(u"CART中第%d个特征的基尼值为：%.3f" % (i, gini))

# 根据Gini选择当前最好的划分特征
def CART_best_split(dataset):
    feat_num = len(dataset[0]) - 1  # 根据dataset判断要划分的特征的数量
    best_Gini = 99999.0  # 初始化Gini指数
    best_feature = -1
    for i in range(feat_num):
        # 遍历所有特征：取每一行的第i个，即得当前集合所有样本第i个feature的值
        feat_list = [example[i] for example in dataset]
        unique_vals = set(feat_list)  # 从列表中创建集合set(获得得列表唯一元素值)
        gini = 0.0
        for value in unique_vals:
            sub_dataset = split_discrete_dataset(dataset, i, value)  # 计算每个取值的熵
            p = len(sub_dataset) / float(len(dataset))
            sub_p = len(split_discrete_dataset(sub_dataset, -1, '坏瓜')) / float(len(sub_dataset))
            gini += 2 * p * sub_p * (1 - sub_p)
        # print(u"CART中第%d个特征的基尼值为：%.3f" % (i, gini))
        if gini < best_Gini:
            best_Gini = gini
            best_feature = i
    return best_feature

# 生成CRAT决策树
def CART_creatTree(dataset, labels, test_dataset):
    class_list = [example[-1] for example in dataset]
    if class_list.count(class_list[0]) == len(class_list):
        # 类别完全相同，停止划分
        return class_list[0]
    if len(dataset[0]) == 1:
        # 遍历完所有特征时返回出现次数最多的
        return majorityCnt(class_list)
    best_feat = CART_best_split(dataset)
    best_featLabel = labels[best_feat]
    print(u"此时最优索引为：" + best_featLabel)
    CART_Tree = {best_featLabel: {}}
    del (labels[best_feat])
    # 得到列表包括节点所有的属性值
    feat_values = [example[best_feat] for example in dataset]
    unique_vals = set(feat_values)

    if pre_pruning is True:
        ans = []
        for index in range(len(test_dataset)):
            ans.append(test_dataset[index][-1])
        result_counter = Counter()
        for vec in dataset:
            result_counter[vec[-1]] += 1
        leaf_output = result_counter.most_common(1)[0][0]
        root_acc = cal_acc(test_output=[leaf_output] * len(test_dataset), label=ans)
        outputs = []
        ans = []
        for value in unique_vals:
            cut_testSet = split_discrete_dataset(test_dataset, best_feat, value)
            cut_dataSet = split_discrete_dataset(dataset, best_feat, value)
            for vec in cut_testSet:
                ans.append(vec[-1])
            result_counter = Counter()
            for vec in cut_dataSet:
                result_counter[vec[-1]] += 1
            leaf_output = result_counter.most_common(1)[0][0]
            outputs += [leaf_output] * len(cut_testSet)
        cut_acc = cal_acc(test_output=outputs, label=ans)

        if cut_acc <= root_acc:
            return leaf_output

    # 【递归调用】针对当前用于划分的特征(beat_Feat)的每个取值，划分出一个子树
    for value in unique_vals:  # 遍历该特征【现存的】取值
        sub_labels = labels[:]
        CART_Tree[best_featLabel][value] = CART_creatTree(split_discrete_dataset(dataset, best_feat, value),
                                                          sub_labels,
                                                          split_discrete_dataset(test_dataset, best_feat, value))

    return CART_Tree

5. 预剪枝算法实现

预剪枝算法实现较为简单，就是在决策树划分过程加以判断，判断若进行划分在测试集上的准确率小于在根节点不进行划分的准确率，作为一个叶节点返回当前数据集中最多的标签类型。
- ```
    if pre_pruning is True:
        if tree_acc(ID3_Tree, data_test, temp_labels) >= major_acc(majorityCnt(class_list), data_test):
            return majorityCnt(class_list)
```
  6. 后剪枝算法实现
  
  后剪枝算法相对复杂，剪枝的过程是对拥有同样父节点的一组节点进行检查，判断如果将其合并，准确率是否提高。如果提高，则这一组节点可以合并一个节点，其中包含了所有可能的结果。
  - ```
  def post_pruning(input_tree, dataset, data_test, labels):
      first_str = list(input_tree.keys())[0]
      second_dict = input_tree[first_str]
      class_list = [example[-1] for example in dataset]
      feat_key = copy.deepcopy(first_str)
      label_index = labels.index(feat_key)
      temp_labels = copy.deepcopy(labels)
      del(labels[label_index])
      for key in second_dict.keys():
          if type(second_dict[key]).__name__ == 'dict':
              if type(dataset[0][label_index]).__name__ == 'str':
                  input_tree[first_str][key] = post_pruning(second_dict[key],
                                                            split_discrete_dataset(dataset, label_index, key),
                                                            split_discrete_dataset(data_test, label_index, key),
                                                            copy.deepcopy(labels))
  
      if tree_acc(input_tree, data_test, temp_labels) <= major_acc(majorityCnt(class_list), data_test):
          return input_tree
      return majorityCnt(class_list)
```
  7. 决策树可视化
  
  决策树采用字典的方式进行建立，但是字典可视效果较差，因此需要对决策树字典进行可视化处理。由于可视化部分并不是本章的重点，因此参考了网上广泛采用的plotTree.py文件进行决策树可视化，利用matplotlib库生成图形，详情可见附录。
- 四、运行结果
  - 习题4.3
    
    编程实现基于信息熵进行划分选择的决策树算法，并为西瓜数据集3.0中的数据生成一颗决策树。
  - 代码参见附录1，ID3.py生成ID3决策树的流程如下图所示：
  - 生成的决策树如下所示：
  - - 习题4.4
      
      编程实现基于基尼指数进行划分选择的决策树算法，为西瓜数据集2.0生成预剪枝、后剪枝决策树，并与未剪枝决策树进行比较。
    - 代码参见附录2，CART_剪枝.py
    - 生成CART未剪枝决策树的流程如下图所示：
    - 生成的未剪枝CART决策树如下所示：
    - 通过pre_pruning标志位来控制是否进行预剪枝操作
    - 生成的预剪枝决策树如下所示：
    - 通过加载post_pruning()函数，来进行后剪枝操作
      
      生成的后剪枝决策树如下所示：
    - 对比未剪枝、预剪枝和后剪枝生成的决策树，可以看出经过剪枝操作后决策树明显精简，其中后剪枝剪去了敲声和纹理两个内部结点，预剪枝减去色泽结点以外的所有结点。预剪枝比较快速，可以在构建决策树时进行剪枝，显著降低了过拟合风险，但是预剪枝基于贪心思想，本质上禁止分支展开，给决策树带来了欠拟合的风险。
      
      五、附件（见我的资源）
      
      1. 习题4.3代码
      
      2. 习题4.4代码
      
      3. 习题4.6代码

你可能感兴趣的:(西瓜书《机器学习》汇总,决策树,学习,机器学习)

【优选算法】7----三数之和 Rhzkp 算法 c++leetcode
来了来了，他来了，又是学习算法的一天~今天的嘉宾是中等难度的算法题----三数之和！------------------------------------------begin------------------------------------题目解析：哇趣！又是给了一个数组，又是需要我们在一个数组中进行操作，但这次不是二元那么简单了，而是三元~讲解算法原理：方法一：肯定还是暴力解法啦，直接
c++/c语言系统全面学习一维数组排序的3种基本方法坑货罗 c++c语言算法
前言：我们先了解一下数组数组就是一组相同类型的变量，它们往往都是为了表示同一批对象的统一属性，如一个班级所有同学的身高、全球所有国家的人口数等。数组可以是一维的，也可以是二维或多维的。再来看看一维数组的定义：定义一维数组的格式如下：类型标识符数组名[常量表达式];其中，类型标识符可以是任何基本数据类型，也可以是结构体等构造类型，相同类型的数组可以一起定义。数组名必须是合法的标识符。常量表达式的值即
Java学习，集合添加不同类型元素五味香 java 学习开发语言 python android kotlin golang
Java集合（Collections）框架，提供了一系列接口和类，用于存储和操作对象集合。大多数集合类（如ArrayList,HashSet,HashMap等）都是类型化的，它们只能存储特定类型的对象。有一些方法，可以在集合中“存储”不同类型的元素。示例：importjava.util.ArrayList;importjava.util.List;publicclassHeterogeneousC
docker如何学习与使用入门杨半仙儿还未成仙儿 java专栏 docker 学习容器
学习和使用Docker的入门可以分为以下几个步骤。Docker是一个功能强大的工具，通过容器化技术使得应用开发和部署更加高效、简便。以下是一个逐步的学习路径，帮助你从入门到熟练掌握Docker。1.理解容器化的概念在学习Docker之前，先了解容器化的基本概念是非常重要的。容器化是一种将应用及其依赖项（如库、工具、配置文件等）打包到独立环境中的技术，这样容器中的应用就可以在不同环境下稳定运行。容器
Java学习，遍历HashTable键值五味香 java jvm 开发语言学习 python android kotlin
JavaHashTable是一个同步的键值对集合，适用于多线程环境。尽管HashTable不如HashMap常用，在需要线程安全场景，HashTable仍然有用。示例：importjava.util.Enumeration;importjava.util.Hashtable;publicclassHashTableExample{publicstaticvoidmain(String[]args)
咱们继续学Java——高级篇第二百四十篇：之Java进阶之本地方法：JNI中字符串处理的深入剖析一杯年华@编程空间咱们继续学java高级篇 maven struts kafka intellij-idea hibernate spring tomcat
咱们继续学Java——高级篇第二百四十篇：之Java进阶之本地方法：JNI中字符串处理的深入剖析在Java学习的征程中，我们不断探索知识的深度，每一次对复杂概念的深入理解都是成长的关键。我写这篇博客的目的，就是希望与大家一同深入学习Java本地方法中Java与C之间字符串处理的详细机制，助力大家在Java与其他语言交互编程领域掌握更高级的技能。今天，我们将详细解读JNI中字符串参数的传递、处理以及
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
Python的输入函数input() 蜗牛_Chenpangzi Python学习笔记总集 python 字符串编程语言
前言此篇文章是我在B站学习时所做的笔记，部分为亲自动手演示过的，方便复习用。此篇文章仅供学习参考。提示：以下是本篇文章正文内容，下面案例可供参考input函数input函数的基本使用#输入函数inputpresent=input('大圣想要什么礼物呢?')print(present,
第18篇：python高级编程进阶：Web开发基础详解猿享天开 python从入门到精通 python 开发语言
第18篇：Web开发基础内容简介本篇文章将为您介绍Web开发基础的核心概念和实用技能。您将了解Web开发的基本概念和流程，掌握HTTP协议的基础知识，学习如何使用Flask框架构建简单的Web应用，并深入理解路由与视图函数的工作原理。通过丰富的代码示例和实战案例，您将能够快速入门Web开发，搭建自己的第一个Web应用。目录Web开发概述什么是Web开发前端与后端开发Web开发的技术栈HTTP协议基
大数据学习（七）Python3操作livy（使用pylivy模块）猪笨是念来过倒大数据大数据 python
Livy是一个用于与Spark交互的开源REST接口。pylivy是Livy的Python客户端，可以在Spark集群上轻松实现远程代码执行。安装$pipinstall-Ulivy请注意，pylivy需要Python3.6或更高版本。用法所述LivySession类的主界面提供由pylivy：from
Nginx介绍和入门学习 _Eden_ nginx 学习运维
一、Nginx介绍1.nginx是什么？毋庸置疑它是一个web服务器，类似的，apache、lighttpd、tomcat、jetty、IIS都是web服务器。它们都具有web服务器的基本功能：基于rest架构风格，以同意资源描述符或者统一资源定位符作为沟通的依据，通过http为浏览器邓客户端提供各种网络服务。对于上述所提到的web服务器，分别具有各自的特点和弊端例如，tomcat和jetty都是
Java学习，List 元素替换五味香 java 学习 python 开发语言 android kotlin golang
Java中List接口，提供了多种方法来替换元素，可以通过索引，访问和替换List中的元素。示例：publicclassListElementReplacementExample{publicstaticvoidmain(String[]args){//创建ArrayListListlist=newArrayList<>();list.add("Apple");list.add("Banana")
Java学习，List截取五味香 java 学习 python 开发语言 android kotlin golang
Java中List接口，List接口提供了一个subList方法，该方法允许获取原始列表的一个视图（view），该视图包含从指定起始索引（包含）到指定结束索引（不包含）之间的元素。使用ArrayList和subList方法：importjava.util.ArrayList;importjava.util.List;publicclassListSliceExample{publicstaticv
第17篇：python进阶：详解数据分析与处理猿享天开 python从入门到精通 python 开发语言
第17篇：数据分析与处理内容简介本篇文章将深入探讨数据分析与处理在Python中的应用。您将学习如何使用pandas库进行数据清洗与分析，掌握matplotlib和seaborn库进行数据可视化，以及处理大型数据集的技巧。通过丰富的代码示例和实战案例，您将能够高效地进行数据处理、分析和可视化，为数据驱动的决策提供有力支持。目录数据分析与处理概述什么是数据分析与处理数据分析的流程使用pandas进行
Docker入门学习 _Eden_ docker 学习容器
一、容器1.将单个操作系统中的资源划分到孤立的组中，在孤立的组中平衡有冲突的资源使用需求2.Docker提供了容器管理的工具可以无需关注底层操作，使用效果类似于轻量级的虚拟机，并且容器的创建和停止相对于虚拟机来说比较快；虽然不同容器之间为了保证一定的安全性采取安全隔离，但是在某些情况下需要消息共享灯可以利用通信机制进行通信二、虚拟化虚拟化的核心是对资源进行抽象呈现出来来打破实体结构之间不可切割的障
vue组件学习三(插槽) @爱学习的小姜 vue.js
目录1、匿名插槽2、渲染作用域3、默认内容4、具名插槽5、条件插槽6、作用域插槽7、具名作用域插槽最后1、匿名插槽父组件调用Mycomponet1组件clickme子组件为最后结果为clickme2、渲染作用域因为插槽的内容是在父组件中定义的，所以能访问到父组件中的数据作用域，无法访问到子组件的数据。3、默认内容在我们没有从父组件中提供插槽内容时，可以提供一个默认值例如：默认内容在这个例子中，父组
Pulsar：网络足迹的扫描尖兵渗透小白鼠网络 php 开发语言
免责声明：该文章所涉及到的安全工具和技术仅做分享和技术交流学习使用，使用时应当遵守国家法律，做一位合格的白帽专家。使用本工具的用户需要自行承担任何风险和不确定因素，如有人利用工具做任何后果均由使用者承担，本人及文章作者还有泷羽sec团队不承担任何责任如本文章侵权，请联系作者删除B站红队公益课：https://space.bilibili.com/350329294学习网盘资源链接：https://
《CPython Internals》阅读笔记：p336-p352 python
《CPythonInternals》学习第17天，p336-p352总结，总计17页。一、技术总结1.GDBGDB是GNUDbugger的缩写。(1)安装sudoaptinstallgdb(2)创建.gdbinit文件touch~/.gdbinitvim~/.gdbinit(3)配置.gdbinit文件add-auto-load-safe-path/project/cpython注：1./proj
【CV】25.1.7 arxiv更新速递 hinmer arxiv CV每日更新 python 人工智能计算机视觉 chatgpt 目标检测 ai AIGC
—第1篇----关键词:手势识别,计算机视觉,低光照条件,机器学习,RaspberryPi,OpenCV论文链接-摘要:手势识别是一种基于计算机视觉技术的感知用户界面，允许计算机将人类动作解释为命令，使用户无需使用手与计算机交流，从而使鼠标和键盘变得多余。手势识别的主要弱点是光线条件，因为手势控制依赖于摄像头。摄像头用于在2D和3D中解释手势，因此提取的信息可能因光源而异。系统的限制是无法在黑暗环
大模型GUI系列论文阅读 DAY2续2：《使用指令微调基础模型的多模态网页导航》 feifeikon 论文阅读
摘要自主网页导航的进展一直受到以下因素的阻碍：依赖于数十亿次的探索性交互（通常采用在线强化学习），依赖于特定领域的模型设计，难以利用丰富的跨领域数据进行泛化。在本研究中，我们探讨了基于视觉-语言基础模型的数据驱动离线训练方法，以改进网页代理的性能。我们提出了一种名为WebGUM的指令跟随多模态代理，该代理能够同时观察网页截图和HTML页面，并输出网页导航操作，例如点击和输入文本等。WebGUM通过
14天速成小程序开发：第九章首页banner轮播图效果的实现雁于飞 14天速成小程序开发 bug uni-app vue 微信小程序学习笔记后端
文章目录前言一、获取数据二、渲染样式三、成果展示四、代码展示1.index.vue页面1.1template1.2script1.3style2.utils.js公共逻辑前言本文将学习调用组件和接口文档实现首页banner轮播图效果的实现一、获取数据二、渲染样式三、成果展示四、代码展示1.index.vue页面1.1template点击右上角“添加到我的小程序”，方便下次找到！0"class="i
24.11.15学习总结 The_cute_cat 学习
就“24.11.14学习总结”的第一题的代码修改。#includeintmain(){inta,b;scanf("%d%d",&a,&b);intd[a+1][a+1];for(inti=0;iintmain(){inta;scanf("%d",&a);intb[a][a],c[a][a];for(inti=0;itemp?tempmax:temp;}}}max=max>tempmax?max:t
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
Java 封装与继承：面向对象编程的两大支柱来恩1003 Java 从入门到精通 java 开发语言
Java学习资料Java学习资料Java学习资料引言在Java的面向对象编程（OOP）体系里，封装和继承是极为关键的概念。它们不仅是构建复杂软件系统的基础，也为代码的设计、维护与扩展提供了强大助力。接下来，我们将深入探究这两大支柱的内涵、实现方式及其在实际开发中的价值。封装封装的定义封装是把对象的属性和操作这些属性的方法捆绑在一起，形成一个独立的单元，并尽可能隐藏对象的内部实现细节，只向外部提供必
WPF 自定义布局面板详解：5步轻松掌握墨瑾轩一起学学C#【一】wpf
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣引言WPF（WindowsPresentationFoundation）是一个强大的用户界面框架，提供了丰富的布局控件。然而，有时候内置的布局控件可能无法满足特定的需求。这时，自定义布局面板就显得尤为重要。本文将详细介绍如何在WPF中自定义布局面板，并通过具体
c#分页_《Dotnet9》系列-开源C# WPF控件库3《HandyControl》强力推荐 weixin_39654058 c#分页 c#给按钮添加链接 wpf mysql
大家好，我是Dotnet9小编，一个从事dotnet开发8年+的程序员。我最近开始写dotnet分享文章，希望能让更多人看到dotnet的发展，了解更多dotnet技术，帮助dotnet程序员应用dotnet技术更好的运用于工作和学习中去。历经3个白天2个黑夜（至凌晨2点），Dotnet9小编经过反复修改、润色，终于完成此文编写（本文略长，手机党请考虑流量），只能说小编我不容易呀不容易。完成此文编
自学成才之路，DeepSeek R1 论文解读智识世界Intelligence 神经网络深度学习自然语言处理课程设计学习方法
DeepSeekR1的论文看完后，后劲很大。虽然我推荐所有人都去阅读一下，但我估计实际去读的人应该很少。今天把论文里的三个亮点，用通俗易懂地方式写出来，希望能让更多人了解这篇论文有多么重要。亮点一：告别“刷题班”，纯“实战”也能练出推理大神！我们平时学习，是不是经常要“刷题”？做大量的练习题，才能巩固知识，提高解题能力。以前训练AI模型，也差不多是这个套路，要先给AI“喂”大量的“习题”（监督数据
C语言学习记录——通讯录(静态内存) qiyi.sky C语言学习 c语言
分模块contact.h类型定义，函数声明。contact.c函数的实现test.c测试通讯录的模块test.c#include"contact.h"voidmenu(){printf("\n");printf("1.add2.del\n");printf("3.search4.modify\n");printf("5.sort6.print\n");printf("0.exit\n");prin
通过Ftrace实现高效、精确的内核调试与分析深度Linux 性能优化 linux LInux内核性能分析调试工具
虽然之前一直听说过ftrace，但从来没将它用在实战中，在一次客户排查问题中，遇到了比较奇怪的现象，一位精通内核的朋友建议使用ftrace来定位一下。虽然那一次并没有使用ftrace，但也让我觉得，后面我们势必要提供ftrace相关的工具帮助我们在线上定位问题，所以自己也决定重新学习使用下ftrace，当然也决定写一系列的相关出来，这里就先简单介绍下ftrace。一、Ftrace简介1.1Ftra
基于遗传算法的城市旅行问题（TSP）求解 NovakG_ 深度学习 python 算法深度学习神经网络
1.遗传算法背景介绍遗传算法是一种基于生物进化论中的自然选择和遗传机制的优化算法，模拟了生物进化过程以搜索最优解。通过仿真染色体的交叉、变异等操作，遗传算法将求解过程转换为类似生物进化的迭代运算。该算法在解决复杂的组合优化问题时，通常比常规优化算法更高效，且具有广泛应用，包括组合优化、机器学习、信号处理、自适应控制和人工生命等领域2.遗传算法基本解题思路遗传算法的设计思路主要受到大自然中生物体进化
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

西瓜书学习笔记---第四章 决策树

一、题目要求

二、数据集介绍

三、决策树模型

3.1 决策树模型介绍

3.2 决策树算法原理

3.2.1 决策树的建立

3.2.2 决策树的划分（1）—信息增益ID3

3.2.3 决策树的划分（2）—Gini指数CART

3.2.4 预剪枝pre-pruning

3.2.5 后剪枝post-pruning

3.3 决策树算法核心代码解释

四、运行结果

五、附件（见我的资源）

你可能感兴趣的:(西瓜书《机器学习》汇总,决策树,学习,机器学习)

西瓜书学习笔记---第四章决策树