老狼IT工作室

[Python] scikit-learn - 葡萄酒(wine)数据集和决策树分类器的使用

葡萄酒(wine)数据集介绍

葡萄酒识别数据集（Wine Recognition dataset）通常用于多类别分类问题建模。数据集包括从三个不同的品种（类别）的葡萄酒中测得的13种不同的化学特征，共178个样本。这些化学特征包括酸度、灰分、酒精浓度等。

该数据集是由UCI机器学习库提供，并且已经被广泛用于分类和聚类任务，作为基准测试数据集之一。

sklearn.datasets.load_wine — scikit-learn 1.4.0 documentation

from sklearn.datasets import load_wine
wine_datas = load_wine()
print('wine_datas.data.shape:', wine_datas.data.shape)
print('wine_datas.data:', wine_datas.data[0:5])
print('wine_datas.feature_names:', wine_datas.feature_names)
print('wine_datas.target.shape:', wine_datas.target.shape)
print('wine_datas.target:', wine_datas.target[0:5])
print('wine_datas.target_names:', wine_datas.target_names)

print('wine_datas.DESCR:', wine_datas.DESCR)

wine_datas.DESCR: .. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol(酒精)
 		- Malic acid(苹果酸)
 		- Ash(灰)
		- Alcalinity of ash(灰的碱性)
 		- Magnesium(镁)
		- Total phenols(总酚)
 		- Flavanoids(类黄酮)
 		- Nonflavanoid phenols(非黄烷类酚类)
 		- Proanthocyanins(花青素)
		- Color intensity(颜色强度)
 		- Hue(色调)
 		- OD280/OD315 of diluted wines(OD280/OD315稀释葡萄酒)
 		- Proline(脯氨酸)

    - class:
            - class_0 (琴酒)
            - class_1 (雪莉)
            - class_2 (贝尔莫得)
		
    :Summary Statistics:
    
    ============================= ==== ===== ======= =====
                                   Min   Max   Mean     SD
    ============================= ==== ===== ======= =====
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0.98  3.88    2.29  0.63
    Flavanoids:                   0.34  5.08    2.03  1.00
    Nonflavanoid Phenols:         0.13  0.66    0.36  0.12
    Proanthocyanins:              0.41  3.58    1.59  0.57
    Colour Intensity:              1.3  13.0     5.1   2.3
    Hue:                          0.48  1.71    0.96  0.23
    OD280/OD315 of diluted wines: 1.27  4.00    2.61  0.71
    Proline:                       278  1680     746   315
    ============================= ==== ===== ======= =====

    :Missing Attribute Values: None
    :Class Distribution: class_0 (59), class_1 (71), class_2 (48)
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%[email protected])
    :Date: July, 1988

This is a copy of UCI ML Wine recognition datasets.
https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

The data is the results of a chemical analysis of wines grown in the same
region in Italy by three different cultivators. There are thirteen different
measurements taken for different constituents found in the three types of
wine.

Original Owners: 

Forina, M. et al, PARVUS - 
An Extendible Package for Data Exploration, Classification and Correlation. 
Institute of Pharmaceutical and Food Analysis and Technologies,
Via Brigata Salerno, 16147 Genoa, Italy.

Citation:

Lichman, M. (2013). UCI Machine Learning Repository
[https://archive.ics.uci.edu/ml]. Irvine, CA: University of California,
School of Information and Computer Science. 

|details-start|
**References**
|details-split|

(1) S. Aeberhard, D. Coomans and O. de Vel, 
Comparison of Classifiers in High Dimensional Settings, 
Tech. Rep. no. 92-02, (1992), Dept. of Computer Science and Dept. of  
Mathematics and Statistics, James Cook University of North Queensland. 
(Also submitted to Technometrics). 

The data was used with many others for comparing various 
classifiers. The classes are separable, though only RDA 
has achieved 100% correct classification. 
(RDA : 100%, QDA 99.4%, LDA 98.9%, 1NN 96.1% (z-transformed data)) 
(All results using the leave-one-out technique) 

(2) S. Aeberhard, D. Coomans and O. de Vel, 
"THE CLASSIFICATION PERFORMANCE OF RDA" 
Tech. Rep. no. 92-01, (1992), Dept. of Computer Science and Dept. of 
Mathematics and Statistics, James Cook University of North Queensland. 
(Also submitted to Journal of Chemometrics).

|details-end|

这是UCI ML Wine recognition数据集的CSV URL:

https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

这些数据是对同一地区三种不同品种的葡萄酒进行化学分析的结果。对于三种葡萄酒中发现的不同成分，采取了十三种不同的测量方法。

# 读取UCI原始副本，原始副本中，第一列为类别，分别为1,2,3
import pandas as pd
csv_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'
names = ['Class', 'Alcohol', 'Malic acid', 'Ash', 'Alcalinity of ash', 'Magnesium', 'Total phenols', 'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins', 'Color intensity', 'Hue',
         'OD280/OD315 of diluted wines', 'Proline']
wine_df = pd.read_csv(csv_url, names=names)
wine_df.head()

wine_df.info()

wine_df.describe()

决策树是什么？有哪些应用场景？有哪些优缺点？

决策树是一种基于树状结构的机器学习模型，用于解决分类和回归问题。

决策树由根节点、内部节点和叶节点组成。根节点代表最重要的特征，内部节点表示某个特征的取值，叶节点表示一个类别或者数值。在决策树中，根据不同的特征值将数据集划分为不同的子集，直到每个子集的数据属于同一类别或达到预定的停止条件。

决策树的应用场景包括：

1. 分类问题：决策树可以用于对数据进行分类，如判断一封邮件是垃圾邮件还是非垃圾邮件。

2. 回归问题：决策树可以用于对数据进行回归分析，如根据房屋的特征预测房价。

3. 特征选择：决策树可以用于选择最重要的特征，帮助我们了解数据的特征重要性。

4. 异常检测：决策树可以用于检测异常数据，如判断信用卡交易是否存在欺诈行为。

5. 决策分析：决策树可以用于辅助决策制定，如制定营销策略时根据不同特征预测不同用户的购买概率。

决策树的优点包括：

直观易懂：决策树模型可视化，易于理解和解释。它们使用树状图来表示决策路径，使其对非专业人士也易于理解。
可处理多类型数据：决策树能处理包括离散型和连续型变量在内的多种类型的数据。
适用于大型数据集：决策树算法具有较高的计算效率，适用于处理大型数据集。
能够处理缺失值和异常值：决策树算法可以处理包含缺失值和异常值的数据集，并且对这些值具有较强的鲁棒性。

决策树的缺点包括：

容易过拟合：决策树模型容易过拟合训练数据，特别是在处理复杂问题时。
不稳定性：对于输入数据的小变化可能导致生成不同的决策树模型。
忽略关联特征：决策树算法通常只考虑单个特征的影响，而忽略了不同特征之间的相关性。
高度依赖于训练数据：决策树模型的性能很大程度上取决于训练数据的质量和数量。没有足够的训练数据可能导致模型的性能不佳。
非线性问题处理能力相对较弱：决策树算法不太适用于处理非线性问题，对于包含多个连续特征和复杂关系的问题可能效果较差。

scikit-learn中的决策树模块

1.10. Decision Trees — scikit-learn 1.4.0 documentation

使用决策树进行分类任务：

使用决策树进行回归任务：

使用决策树进行分类任务

安装JupyterLab

[Python] Jupyter Notebook(Jupyter Lab)介绍，安装，配置，启动及创建第一个notebook_python 启动jupyter lab-CSDN博客

安装依赖

pip install pandas scikit-learn graphviz matplotlib

Window下安装graphviz

[Python] 如何在Windows下安装graphviz-CSDN博客

sklearn.tree.DecisionTreeClassifier 类

1.10. Decision Trees — scikit-learn 1.4.0 documentation

sklearn.tree.DecisionTreeClassifier — scikit-learn 1.4.0 documentation

要使用决策树进行分类任务，我们可以使用 sklearn.tree.DecisionTreeClassifier 类。

sklearn.tree.DecisionTreeClassifier-scikit-learn中文社区

使用决策树建模基本流程

使用葡萄酒数据集进行训练（拟合）和验证

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(wine_datas.data, wine_datas.target, test_size=0.3, random_state=30)
print('x_train.shape:', x_train.shape)
print('x_test.shape:', x_test.shape)
print('y_train.shape:', y_train.shape)
print('y_test.shape:', y_test.shape)

clf = DecisionTreeClassifier()  # 实例化分类器
clf = classifier.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
fit_score

Jupyter Notebook中输出决策树

sklearn.tree.export_graphviz — scikit-learn 1.4.0 documentation

我们可以通过sklearn.tree.export_graphviz函数导出graphviz图形，然后使用graphviz模块来进行输出：

import graphviz
import sklearn.tree as tree
feature_names = wine_datas.feature_names
target_names = wine_datas.target_names
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
print(tree_data)
graph = graphviz.Source(tree_data)
graph

图解释：

1）图中的log_loss就是决策节点使用criterion=log_loss计算的不纯度值。叶子节点的不纯度一般都会为0，父节点的不存度一定大于子节点的不纯度值。

2）图一共有4层，上面的层的不纯度之和大于下面的层的不纯度之和。

3）samples为阶段对应的样本数，一共124个训练样本。子节点的samples之和等于父节点的samples。

4）value表示该节点中三个分类的每个分类对应的样本数。

5）class表示该节点对应的分类类别名称。

6）父节点的第一行表示使用了哪个特征列（比如flavanoids，color_intensity，ash），根据该特征列的什么值来进行分枝。叶子节点已经是最后分类的结果，因此不需要再做分枝，因此只有4行。

sklearn.tree.export_text — scikit-learn 1.4.0 documentation

你也可以使用sklearn.tree.export_text()函数导出文本树结构：

tree_text = tree.export_text(clf,  feature_names = feature_names,  class_names = target_names)
print(tree_text)

Jupyter Notebook输出模型的属性值

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print('score:', fit_score)
print('feature_importances_:', clf.feature_importances_)
to_feature_names = {feature_names[idx]:value for idx, value  in  enumerate( clf.feature_importances_)}
print('to_feature_names:', to_feature_names)
print('classes_:', clf.classes_)
print('n_classes_:', clf.n_classes_)
#print('feature_names_in_:', clf.feature_names_in_)
print('n_features_in_:', clf.n_features_in_)
print('max_features_:', clf.max_features_)
print('n_outputs_:', clf.n_outputs_)
print('tree_:', clf.tree_)

其中，最为重要的是“feature_importances_”属性值，它表示哪些特征列对决策树贡献最大。

参数使用说明

criterion

用于决策树的评估准则。可以选择"gini"或"entropy"或"log_loss"。默认值为"gini"。如果选择"gini"，则使用基尼不纯度作为评估准则；如果选择"entropy"或"log_loss"，则使用信息熵作为评估准则。

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个“最佳"的指标叫做'不纯度''。通常来说，不纯度越低，决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。

不纯度基于节点来计算，树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，也就是说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

决策树基本流程：

criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了三种选择:

1 - "gini" 使用基尼不纯度(Gini Impurity);

2 - "entropy" - 使用信息熵(Entropy)增益;

3 - "log_loss" - 使用信息熵增益(Information Gain) = 父节点的信息熵 - 子节点的信息熵;

1.10. Decision Trees — scikit-learn 1.4.0 documentation

在机器学习中，不纯度（impurity）是衡量数据集中样本混合程度的度量指标。不纯度越高，表示样本混合程度越大。在决策树等算法中，不纯度通常用来选择最优的分割点。

常见的不纯度度量指标包括：

熵（Entropy）：衡量样本的混合程度，熵越高表示混合程度越大。熵的计算公式为： Entropy(D) = - Σ(p_i * log2(p_i)) 其中，p_i 表示数据集 D 中第 i 类样本的占比。

基尼指数（Gini Index）：衡量样本被错误分类的概率，基尼指数越高表示样本混合程度越大。基尼指数的计算公式为： Gini(D) = 1 - Σ(p_i^2) 其中，p_i 表示数据集 D 中第 i 类样本的占比。

分类误差（Classification Error）：衡量样本被错误分类的概率，分类误差越高表示样本混合程度越大。分类误差的计算公式为： Error(D) = 1 - max(p_i) 其中，p_i 表示数据集 D 中第 i 类样本的占比。

这些不纯度度量指标都可以用来选择最优的分割点，以达到样本分离的最佳效果。

比起基尼系数，信息熵对不纯度更加敏感，对不纯度的惩罚最强。但是在实际使用中，信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢一些因为基尼系数的计算不涉及对数。另外，因为信息熵对不纯度更加敏感，所以信息熵作为指标时，决策树的生长会更加''精细“，因此对于高维数据或者噪音很多的数据，信息熵很容易过拟合，基尼系数在这种情况下效果往往比较好。当然，这不是绝对的。

我们不要死背数学公式，都试试，那个拟合效果好，运行速度快就用那个：

random_state

用于指定随机数种子。默认值为None。在高维度特征值时随机性会表现更明显，低维度特征值的数据（比如鸢尾花数据集），随机性几乎不会显现，输入任意整数，会一直长出同一棵树，让模型稳定下来。

该参数主要控制分枝时使用的随机数，如何设置了，可以确保每次训练都使用相同的随机数，这样可以重复执行fit, score等方法产生同样的效果。

clf = DecisionTreeClassifier(criterion='entropy', random_state=30)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
fit_score

这里的 fit_score 会保持不变，如果没有设置random_state，你会发现运行上述的代码，fit的训练过程都会有些微小的变化，因此fit_score都会有些变化。

splitter

用于指定选择特征的策略。可以选择"best"或"random"。默认值为"best"。

如果选择"best"，则选择最优的特征进行分割；决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importance_查看）。

如果选择"random"，则随机选择一个特征进行分割。决策树在分枝时会更加随机，树会更深，对训练集的拟合将会降低。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合，用这两个参数来帮助你降低拟合的可能性。

一般不需要设置，保持默认值"best"即可。

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, splitter='best')  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, splitter='random')  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

当splitter='random'时，获取同样的准确度值(0.9629..)，但是层次更深，训练时间会更长。

为了让决策树有更好的泛化性，我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大，正确的剪枝策略是优化决策树算法的核心。

剪枝策略参数 - max_depth

用于指定决策树的最大深度。默认值为None，表示决策树可以无限深度。如果设置一个正整数，表示决策树的最大深度不能超过该值，超过设定深度的树枝全部剪掉。

在高维度低样本量时非常有效，决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合。实际使用时，建议从3开始尝试，看看拟合的效果来决定是否增加该值。

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, max_depth=2)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, max_depth=3)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

剪枝策略参数 - min_samples_split

用于指定每个分割节点上最少样本数。可以是一个整数，表示最少样本数；也可以是一个浮点数，表示最少样本数的百分比。默认值为2。

一个节点必须要包含至少min_samples_split个训练样本，这个节点才允许被分枝，否则分枝就不会发生。

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, min_samples_split=10)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, min_samples_split=50)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

剪枝策略参数 - min_samples_leaf

用于指定每个叶子节点上最少样本数。可以是一个整数，表示最少样本数；也可以是一个浮点数，表示最少样本数的百分比。默认值为1。

min_samples_leaf限定一个节点在分枝后的每个子节点都必须包含至少min_samp|es_leaf个训练样本，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_sampies_leaf个样本的方向去发生。

一般搭配max_depth使用，在回归树中有神奇的效果，可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合，设置得太大就会阻止模型学习数据。一般来说建议从5开始使用。如果叶节点中含有的样本量变化很大，建议输入浮点数作为样本量的百分比来使用。同时，这个参数可以保证每个叶子的最小尺寸，可以在回归问题中避免低方差，过以合的叶子节点出现。对于类别不多的分类问题，设置为1通常就是最佳选择。

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, min_samples_leaf=2)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, min_samples_leaf=5)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

min_weight_fraction_leaf

在所有叶节点处（所有输入样本）的权重总和中的最小加权分数。如果未提供sample_weight，则样本的权重相等。

剪枝策略参数 - max_features

用于限制特征的最大数量。可以选择"auto"、"sqrt"、"log2"，表示自动选择特征数量；也可以选择一个整数或浮点数，表示具体的特征数量。默认值为None，表示不限制特征数量。

max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。和max-depth异曲同工。

max_features是用来限制高维度特征数据的过拟合的剪枝参数，但具方法比较暴力，是直接限制可以使用的特征数量而强行使决策树停下的参数，在不知道决策树中的各个特征的重要性的情况下，强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合，建议使用PCA，ICA或者特征选择模块中的降维算法。

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, max_features=3)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, max_features=8)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, max_features=1.0)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

剪枝策略参数 - min_impurity_decrease

如果节点分裂会导致不纯度的减少大于或等于该值，则该节点将被分分枝。

min_impurity_decrease限制信息蹭益的大小，信息增益小于设定数值的分枝不会发生。

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, min_impurity_decrease=0.1)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

clf = DecisionTreeClassifier(criterion='log_loss', random_state=30, min_impurity_decrease=0.5)  # 实例化分类器
clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
print(fit_score)
tree_data = tree.export_graphviz(clf, 
                                 feature_names = feature_names, 
                                 class_names = target_names,
                                 filled=True,
                                 rounded=True)
graph = graphviz.Source(tree_data)
graph

max_leaf_nodes

优先以最佳方式生成带有max_leaf_nodes的树。最佳节点定义为不纯度的相对减少。如果为None，则叶节点数不受限制。

class_weight

dict, list of dict or “balanced”, default=None
以{class_label: weight}的形式表示与类别关联的权重。如果取值None,所有分类的权重为1。对于多输出问题，可以按照y的列的顺序提供一个字典列表。

注意多输出(包括多标签) ，应在其自己的字典中为每一列的每个类别定义权重。例如：对于四分类多标签问题，权重应为[{0：1、1：1：1]，{0：1、1：5}，{0：1、1：1：1}，{0：1、1： 1}]，而不是[{1：1}，{2：5}，{3：1}，{4：1}]。

“平衡”模式使用y的值自动将权重与输入数据中的类频率成反比地调整为n_samples /（n_classes * np.bincount（y））。

对于多输出，y的每一列的权重将相乘。

请注意，如果指定了sample_weight，则这些权重将与sample_weight（通过fit方法传递）相乘。

用于指定每个类别的权重。可以选择"balanced"，表示根据样本的频数自动调整权重；也可以选择一个字典，表示每个类别的权重。

ccp_alpha

用于最小化成本复杂性修剪的复杂性参数。将选择成本复杂度最大且小于ccp_alpha的子树。默认情况下，不执行修剪。有关详细信息，请参见最小成本复杂性修剪。

monotonic_cst

如何确定最优剪枝策略参数？

我们可以通过针对某个剪枝参数进行动态设置值，然后使用matplotlib来绘制图像，观察那个取值可以获取到最好的准确值，下面使用max_depth来举例说明：

import matplotlib.pyplot as plt
test_scores = []
for i in range(10):
    clf = DecisionTreeClassifier(criterion='entropy'
                                 , max_depth=i + 1
                                 , random_state=30
                                 , splitter='random')  # 实例化分类器
    clf = clf.fit(x_train, y_train)  # 通过模型接口fit使用训练集进行训练
    fit_score = clf.score(x_test, y_test)  # 使用score方法输入测试集查看训练拟合度百分比
    test_scores.append(fit_score)

plt.plot(range(1, 11), test_scores, color='red', label='max_depth')
plt.legend()
plt.show()

2个小思考：

1、剪枝参数一定能够提升模型在测试集上的表现吗？调参没有绝对的答案，一切都是看数据本身，对于比较小的数据集，很多情况下使用默认的剪枝策略参数就能获取到最好的准确度。

2、这么多参数，我们需要一个一个画学习曲线？后续会介绍怎么使用“网格搜索”来进行多个参数进行组合。

剪枝策略参数的默认值是会让树不断地生长，会导致决策树在某些数据集上可能会非常巨大，对内存的消耗也会非常巨大。因此如果你手中的数据集非常巨大，并且你已经预测到无论如何都是要剪枝的，那提前设定这些剪枝优化参数来控树的复杂性和大小会比较好。

参考资料

AI基础】基尼系数与基尼不纯度

sklearn.tree.DecisionTreeClassifier-scikit-learn中文社区

你可能感兴趣的:(python,机器学习,python,scikit-learn,决策树)

[学习]M-QAM的数学原理与调制解调原理详解（仿真示例）
M-QAM的数学原理与调制解调原理详解QAM（正交幅度调制）作为现代数字通信的核心技术，其数学原理和实现方法值得深入探讨。本文将分为数学原理、调制解调原理和实现要点三个部分进行系统阐述。文章目录M-QAM的数学原理与调制解调原理详解一、数学原理二、调制原理三、解调原理四、实现要点五、16QAM的Python仿真实现5.1完整仿真代码5.2关键代码解析5.3仿真结果分析六、性能优化方向七、MATLA
lesson1：Python入门知识你的电影很有趣 python 开发语言
目录文章目录前言一、python的语言特性1、语法简练2、解释型语言2.1解释型语言特点2.2编译型语言特点2.3执行效率比较3、标准库/第三方库4、支持面向对象二、windows常用命令三、程序的基本组成1、输入input2、运算3、输出print总结前言开始学习python的第一课一、python的语言特性1、语法简练变量不需要声明类型2、解释型语言2.1解释型语言特点需要解释器通过解释器逐行
Flask实现MTV分层不会吃萝卜的兔子 flask flask分层 flask MTV分层
版本python3.6flask1.0.2每个版本的路径可能不同，但结构大体一样步骤1.简化入口文件run.pyfromflaskdemoimportappapp.run(host="127.0.0.1",port=80)2.配置文件config.pyDEBUG=False3.模型文件modes.py我的模型文件没有写，你也设置多个model放在一个文件夹下，注意修改路径4.视图文件views.p
10倍速开发！飞算JavaAI实战：5分钟生成SpringCloud完整工程 LCG元工具 Python 深度学习人工智能 spring cloud spring 后端
目录一、颠覆性架构设计二、5分钟生成实战步骤1：定义服务架构（YAML配置）步骤2：执行AI生成命令（Python驱动）步骤3：验证生成结果（终端操作）三、双流程图解析横向对比：传统开发vsAI生成纵向核心流程四、量化性能对比五、生产级部署方案安全审计实现高可用部署架构六、技术前瞻性分析七、附录：完整技术图谱传统SpringCloud工程搭建平均耗时8小时，而使用飞算JavaAI只需5分钟，开发效
大规模分布式数据库读写分离架构：一致性、可用性与性能的权衡实践
目录1引言：数据库架构的核心三角2原创架构设计2.1读写分离系统架构2.2读写核心流程3企业级实现代码3.1Python路由服务核心代码3.2TypeScript复制状态监控3.3Kubernetes部署YAML示例4性能对比量化分析5生产级部署与安全方案5.1高可用部署架构5.2安全审计方案6技术前瞻性分析6.1演进路线图6.2关键趋势解读7附录：完整技术图谱结论1引言：数据库架构的核心三角在大
解密GPT工作原理：Transformer架构详解与自注意力机制剖析 AI智能应用 gpt transformer 架构 ai
解密GPT工作原理：Transformer架构详解与自注意力机制剖析关键词：GPT、Transformer、自注意力机制、神经网络、语言模型、深度学习、人工智能摘要：本文将深入浅出地解析GPT模型的核心架构——Transformer，重点剖析其革命性的自注意力机制。我们将从基本概念出发，通过生活化的比喻解释复杂的技术原理，并用Python代码示例展示实现细节，最后探讨这一技术的应用场景和未来发展方
ChatGPT、DeepSeek等大语言模型技术教程
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
U单元测试.py
前言：在软件开发过程中，代码的质量至关重要，而单元测试是确保代码质量的有效手段之一。目录一、初识单元测试二、Python单元测试利器unittest（一）基本结构（二）常用断言方法三、编写你的第一个Python单元测试（一）创建被测试代码（二）创建测试文件（三）编写测试用例（四）运行测试四、深入理解单元测试的魔力总结一、初识单元测试写代码时，难免会担心功能出错。单元测试就像是给代码的一次次“小考”
Python与自动驾驶仿真平台AirSim：未来驾驶的“练兵场”如何用代码玩转现实？ Echo_Wish Python！实战！python 自动驾驶开发语言
Python与自动驾驶仿真平台AirSim：未来驾驶的“练兵场”如何用代码玩转现实？今天咱们聊聊一个非常火但又特别实用的技术方向——自动驾驶仿真。具体点，就是用Python怎么玩转微软出品的自动驾驶仿真平台AirSim。别看名字叫AirSim，实际上它不仅支持无人机，还对自动驾驶汽车的模拟提供了强大支持。自动驾驶不是科幻，背后需要海量数据、复杂算法和大量实车测试。而现实世界测试成本高、风险大，怎么
OpenAI API接口使用基础教程且漫CN DeepSeek openaiapi api openai
OfficialPython库—OpenAIAPI这是OpenAI官方为Python（支持Python 3.8及以上）提供的RESTAPI客户端，使用现代的httpx库实现同步与异步调用，并内置完整的类型定义([github.com][1])。文档RESTAPI的官方文档请参考platform.openai.com。本库完整API说明可见api.md文件([github.com][1])。安装pi
【openAI库】Python语言openAI库详解：从入门到精通（从0到1手把手教程） Java八股文 python 人工智能开发语言
在人工智能（AI）领域，OpenAI无疑是全球最受瞩目的机构之一。它推出的GPT系列模型、DALL·E等创新技术，正在深刻改变各行各业。作为Python开发者，我们该如何快速上手并高效利用OpenAI的API，成为了提升个人竞争力的关键。本文将带你从零开始，深入解析Python语言中的openAI库，助你掌握AI开发的核心工具，成为AI领域的专家。一、什么是openAI库？它能为开发者带来什么？1
Python中的分支结构新人码农11111 python 开发语言
目录Python分支结构详解：从顺序执行到条件选择1.顺序结构2.分支结构2.1单分支（if语句）2.2双分支（if-else语句）2.3多分支（if-elif-else语句）3.分支嵌套4.pass关键字分支结构实战：成绩评级系统总结Python分支结构详解：从顺序执行到条件选择在Python编程中，流程控制是构建逻辑的核心，主要包括顺序结构、选择结构和循环结构。本文将深入解析分支结构（选择结构
python的运算符狡黠的罗伦斯 python 开发语言
文章目录前言一、python的相关运算符1、算术运算符2、比较运算符3、逻辑运算符4、赋值运算符5、位运算符6、其他运算符二、使用方法1、算术运算符2、比较运算符2、逻辑运算符4、赋值运算符5、位运算符6、其他运算符三、运算符的相关事项总结前言运算符是编程语言中不可或缺的组成部分，它们决定了数据如何被处理和计算。在Python中，丰富的运算符提供了灵活的操作方式，涵盖了算术运算、比较运算、逻辑运算
全面学习 OpenAI API：从 Python 教程到 API Key 使用详解，快速上手调用和部署我的学校你进不来学习 python 开发语言人工智能语言模型深度学习
说在前面我们正身处在人工智能迅猛发展的时代，OpenAIAPI无疑是其中的翘楚，它提供了强大的工具，让开发者能够创建智能应用程序。然而，对于许多刚接触这个领域的开发者来说，如何开始使用OpenAIAPI可能是一个不小的挑战。这篇文章旨在全面介绍如何从零开始学习和使用OpenAIAPI，从申请APIKey到在Python中调用和部署，助力你快速上手并实现在项目中的应用。在接下来的内容中，我们将详细阐
Python 爬虫实战：12306 登录与余票监控（图形验证码识别 + 并发请求） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言12306作为中国铁路客户服务中心的官方网站，承载着海量的火车票预订业务。在春运、节假日等高峰期，票源紧张，及时获取余票信息对于抢票来说至关重要。本文将详细讲解如何使用Python爬虫技术实现12306的模拟登录，并监控余票信息，包括图形验证码的识别和并发请求的处理。二、环境搭建在开始之前，首先需要搭建好Python爬虫环境，确保已安装Python解释器，并安装以下必要的库：pipinst
Python 爬虫实战：GitHub 热门项目分析（Star 趋势 + 技术栈聚类） Python核芯 Python爬虫实战项目 python 爬虫 github
前言今天我们要一起完成一个实战项目：通过爬取GitHub热门项目，分析它们的Star趋势以及技术栈聚类。这个项目不仅能让我们熟悉GitHubAPI的使用，还能锻炼我们数据处理和可视化的能力。GitHub作为全球最大的代码托管平台，拥有海量的开源项目。通过分析这些项目的Star趋势和技术栈，我们可以了解当前热门的技术方向，这对我们的技术选型和职业发展都有很大的帮助。本文将分为以下几个部分：爬取Git
【机器学习】什么是逻辑回归？从入门到精通：掌握逻辑回归与二分类问题的解决之道宸码模式识别机器学习机器学习 python 逻辑回归分类人工智能算法
从入门到精通：掌握逻辑回归与二分类问题的解决之道引言1.1逻辑回归简介1.2逻辑回归的应用场景逻辑回归基本原理2.1逻辑回归概述逻辑回归的基本思想预测类别的概率2.2线性模型与Sigmoid函数线性模型Sigmoid函数Sigmoid函数的性质为什么选择Sigmoid函数2.3逻辑回归的输出：概率值分类决策代价函数与优化数学基础3.1逻辑回归的假设与目标假设目标3.2对数似然函数概率模型对数似然函
软件测试面试怎么提升通过率？
2025年软件测试面试技巧、软件测试简历包装、能一周光速拿到5个软件测试岗offer的方法|软件测试面试速成简历篇-3招抓住面试官眼球数字说话：写"发现58个缺陷"比"负责测试"强10倍技术组合：列出"Selenium+Python+Jenkins"这种工具链项目亮点：每个项目用1个具体成果，如"自动化覆盖率达70%"面试篇-5个必杀技测试思维：回答时按"功能-性能-安全-兼容性"分层说Bug案例
python中的分支结构幻鸩605 python 开发语言
一、顺序结构与选择结构顺序结构：代码会按照书写的先后顺序，依次逐行执行。选择结构：依据条件判断的结果，来决定执行哪一部分代码。二、单分支、双分支、多分支单分支（if）#使用if可以开启代码块如果条件为真执行代码块#（多行语句，保持相同缩进）if10>5:#条件满足时执行的代码print("哈哈哈")print("嘿嘿嘿")print("嘻嘻嘻")print("程序结束")双分支（if-else）i
Python 爬虫实战：微博用户数据爬取 Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、前言微博作为国内最大的社交媒体平台之一，蕴含着大量有价值的公开数据。本文将详细介绍如何使用Python爬取微博数据，包括环境搭建、登录模拟、数据抓取、反爬应对、数据存储等完整流程。二、准备工作1.环境准备与工具选择1.1必需工具包安装爬虫所需的库：pipinstallrequestspandasbeautifulsoup4requests：发送HTTP请求。pandas：数据处理和分析。bea
Python爬虫实战：研究httplib2库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php httplib2
1.引言1.1研究背景与意义随着互联网的快速发展，网络上的信息量呈爆炸式增长。如何从海量的网页中高效地获取有价值的数据，成为了当前信息技术领域的一个重要研究课题。网络爬虫作为一种自动获取互联网信息的程序，能够按照一定的规则，自动地抓取网页内容并提取和整理信息，为信息检索、数据分析、机器学习等领域提供了丰富的数据来源。在电子商务领域，爬虫可以用于价格监控、竞品分析和市场调研；在学术研究中，爬虫可以帮
Python爬虫实战：研究stdlib库相关技术 ylfhpy 爬虫项目实战 python 爬虫前端开发语言 stdlib 标准库
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈指数级增长。网络爬虫作为一种自动获取网页内容的工具，在信息检索、数据挖掘、舆情分析等领域发挥着重要作用。Python由于其简洁的语法和丰富的库支持，成为开发网络爬虫的首选语言。本文旨在探讨如何利用Python标准库构建一个功能完整的网络爬虫系统，避免依赖过多第三方库，提高系统的可移植性和稳定性。1.2研究目标本文的研究目标是设计并
Python爬虫实战：研究urllib 库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 urllib
1.引言1.1研究背景与意义互联网每天产生海量数据，如何高效获取和利用这些数据成为重要研究方向。网页爬虫作为自动获取网络信息的核心技术，在市场调研、舆情分析、学术研究等领域具有广泛应用。Python凭借其简洁语法和丰富库支持，成为爬虫开发的首选语言。1.2相关技术概述Python爬虫技术栈主要包括：标准库：urllib、re、csv等第三方库：Requests、BeautifulSoup、Scra
python批量判断pdf文件是否损坏前行居士 python pdf 开发语言
importPyPDF2defis_pdf_corrupted(pdf_path):try:withopen(pdf_path,'rb')asfile:reader=PyPDF2.PdfReader(file)#尝试读取第一页，如果PDF损坏，这里会抛出异常firstpage=reader.pages[0]returnFalse#如果没有异常，文件应该不是损坏的exceptExceptionase
【Python】解析pdf文件中的表格并导出为doc或excel (分析思路+测试代码）发现你走远了优质教程 python pdf 办公自动化
目录效果预览依赖pdf素材获取思路分析main方法内部逻辑注意事项pdf内的表格转为excel基本例程pdf内的表格转为docx基本例程总结欢迎关注『Python』系列，持续更新中欢迎关注『Python』系列，持续更新中效果预览转为excel转为docx依赖python3.8.10测试成功cffi==1.17
python3多个图片合成一个pdf文件，生产使用验证过少陽君 python3付费教程 pdf python linux
简单的示例代码，展示如何将多个图片合成为一个PDF文件。步骤1:安装依赖库首先，确保你已经安装了Pillow和reportlab库：pipinstallPillowreportlab步骤2:编写代码下面是一个Python脚本，它将指定目录中的所有图片文件合成一个PDF文件：fromPILimportImageimportosfromreportlab.pdfgenimportcanvasfromr
Django ઈ一笑ഒ django
1.Django和Tornado的关系Django是一个高级PythonWeb框架，它鼓励快速开发和干净、实用的设计。Django遵循MVC（模型-视图-控制器）设计模式的一个变种，称为MTV（模型-模板-视图）。Django框架提供了大量的“开箱即用”功能，包括：ORM（对象关系映射），让数据库操作变得简单。丰富的模板系统，用于快速生成动态网页。强大的表单系统，简化用户输入和验证过程。认证系统、
Python C10K问题、五种Unix IO模型贵哥的编程之路(热爱分享为后来者) python
一、什么是C10K问题？C10K问题（Concurrency10KProblem）指的是：服务器如何高效地同时处理1万（10,000）个并发连接。早期的服务器和操作系统在面对大量并发IO时，效率极低，容易崩溃或响应缓慢。解决C10K问题，推动了操作系统IO模型的不断演进。二、Unix系统的五种IO模型随着网络和并发需求的提升，Unix系统逐步发展出了五种IO模型，每种模型都在解决并发效率问题上迈进
python 优化IO和并发提高性能贵哥的编程之路(热爱分享为后来者) python
一、任务量与执行效率的关系任务量和效率成反比：任务量越大，程序整体耗时越长，执行效率越低。程序执行效率=完成单位任务所需的时间。任务多、耗时长，效率自然低。二、如何提高程序执行效率？减少任务量只做必要的工作，减少无用或重复的任务。例如：数据预处理、过滤无效请求、合并重复操作等。提高并发量让多个任务“同时”进行（并发/并行），充分利用CPU和IO资源。例如：多线程/多进程/协程/异步IO等。减少单个
pdf 删除多页 python实现（已解决） Vertira python python pdf 开发语言
首先安装第三方库pipinstallPyPDF2然后运行importPyPDF2defremove_page(input_pdf_path,output_pdf_path,page_number_to_remove):#打开PDF文件withopen(input_pdf_path,'rb')asfile:reader=PyPDF2.PdfReader(file)writer=PyPDF2.PdfW
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

[Python] scikit-learn - 葡萄酒(wine)数据集和决策树分类器的使用

葡萄酒(wine)数据集介绍

决策树是什么？ 有哪些应用场景？有哪些优缺点？

scikit-learn中的决策树模块

使用决策树进行分类任务

安装JupyterLab

安装依赖

Window下安装graphviz

sklearn.tree.DecisionTreeClassifier 类

使用决策树建模基本流程

使用葡萄酒数据集进行训练（拟合）和验证

Jupyter Notebook中输出决策树

Jupyter Notebook输出模型的属性值

参数使用说明

criterion

random_state

splitter

剪枝策略参数 - max_depth

剪枝策略参数 - min_samples_split

剪枝策略参数 - min_samples_leaf

min_weight_fraction_leaf

剪枝策略参数 - max_features

剪枝策略参数 - min_impurity_decrease

max_leaf_nodes

class_weight

ccp_alpha

monotonic_cst

如何确定最优剪枝策略参数 ？

参考资料

你可能感兴趣的:(python,机器学习,python,scikit-learn,决策树)

决策树是什么？有哪些应用场景？有哪些优缺点？

如何确定最优剪枝策略参数？