[sklearn] 1 分类决策树

1.Classification

1.1 决策树用于多分类问题：`from sklearn.tree import DecisionTreeClasssifier`

DecisionTreeClasssifier接收两个参数，分别是训练样本矩阵X（可以是稀疏矩阵或者稠密矩阵），和标签集Y；
训练样本集：

clf=tree.DecisionTreeClasssifier()
# 训练
clf=clf.fit(X,Y)
# 预测
clf.predict([[2.0,2.0]])

1.2 predict_proba方法

注意：还有一个predict_proba方法
----> 该方法可以得到每个样本属于不同类别的概率。
https://blog.csdn.net/xiongchengluo1129/article/details/80227724
该链接上出现的问题是，预测样本属于不同类别的概率是0或者1，没有别的情况，按照正常情况看，应该会出现0.2，0.3等不同的概率值。
导致出现这种问题的原因是：过拟合，应该是在按照数据集训练决策树时并没有做限制，（如min_samples_leaf，max_depth等），导致这棵树是“完全生长”的，到最后每个叶子节点上所有样本是属于同一类别的，基尼系数为0。
所以，测试样本分到每个叶子节点上，只会属于某个确定的类别，对应类别的概率就是1，别的概率都是0。
解决办法：设置 min_samples_leaf为10时，如果子数据集中样本数小于这个值10，那么该叶节点和其他兄弟节点都会被剪枝。

image.png

会发现最后的叶子节点，例如第二个叶子节点，14个样本，有10个属于第二类，有4个属于第三类，那么落在该叶子节点的测试样本的predict_proba的值为[0.0,5/7,2/7]。

1.3 画出具体的决策树

from sklearn import tree
tree.plot_tree( clf.fit(X,Y) )
我们还可以以Graphviz的方式导出决策树图，如

    model = Pipeline(
        [
            ('ss', StandardScaler()),  # 标转化操作，将数据标准化到0附近，每一列数据的均值为0 且方差为1
            ('DTC', DecisionTreeClassifier(criterion='entropy', max_depth=3))  # DecisionTreeClassifier  决策树分类
        ]
    )
    model = model.fit(x_train, y_train)  # 训练数据
    y_test_hat = model.predict(x_test)  # 测试数据
    dot_data = tree.export_graphviz(model.get_params('DTC')['DTC'], out_file=None)  
    # tree.export_graphviz????  model.get_params("DTC")得到二元Tuple，
    # 当out_file的值为None时，可以利用pydotplus进行可视化
    graph = pydotplus.graph_from_dot_data(dot_data)
    graph.write_pdf("iris.pdf")

官网示例：

image.png

示例代码：

import graphviz 
dot_data = tree.export_graphviz(clf, out_file=None) 
graph = graphviz.Source(dot_data) 
graph.render("iris")

1.4 DecisionTreeClassifier的参数

<1> criterion：特征选择的标准，有信息增益和基尼系数两种，使用信息增益的是ID3和C4.5算法（使用信息增益比），使用基尼系数的CART算法，默认是gini系数。对应值为"gini"和"entropy"
<2> splitter：特征切分点选择标准，决策树是递归地选择最优切分点（从特征集合中挨个计算选择最优），splitter是用来指明在哪个集合上来递归，有“best”和“random”两种参数可以选择，best表示在所有特征上递归，适用于数据集较小的时候，random表示随机选择一部分特征进行递归，适用于数据集较大的时候。
<3> max_depth：决策树的最大深度，决策树模型先对所有数据集进行切分，再在子数据集上继续循环这个切分过程，max_depth可以理解成用来限制这个循环次数。
<4> min_samples_split：子数据集再切分需要的最小样本量，默认是2，如果子数据样本量小于2时，则不再进行下一步切分。如果数据量较小，使用默认值就可，如果数据量较大，为降低计算量，应该把这个值增大，即限制子数据集的切分次数。
<5> min_samples_leaf：叶节点（子数据集）最小样本数，如果子数据集中的样本数小于这个值，那么该叶节点和其兄弟节点都会被剪枝（去掉），该值默认为1
<6> min_weight_fraction_leaf：在叶节点处的所有输入样本权重总和的最小加权分数，如果不输入则表示所有的叶节点的权重是一致的。
<7> max_features：特征切分时考虑的最大特征数量，默认是对所有特征进行切分，也可以传入int类型的值，表示具体的特征个数；也可以是浮点数，则表示特征个数的百分比；还可以是sqrt,表示总特征数的平方根；也可以是log2，表示总特征数的log个特征
<8> max_leaf_nodes：最大叶节点个数，即数据集切分成子数据集的最大个数。
<9> min_impurity_decrease：切分点不纯度最小减少程度，如果某个结点的不纯度减少小于这个值，那么该切分点就会被移除。
<10> min_impurity_split：切分点最小不纯度，用来限制数据集的继续切分（决策树的生成），如果某个节点的不纯度（可以理解为分类错误率）小于这个阈值，那么该点的数据将不再进行切分。
<11> class_weight：权重设置，主要是用于处理不平衡样本，与LR模型中的参数一致，可以自定义类别权重，也可以直接使用balanced参数值进行不平衡样本处理
<12> presort：是否进行预排序，默认是False，所谓预排序就是提前对特征进行排序，我们知道，决策树分割数据集的依据是，优先按照信息增益/基尼系数大的特征来进行分割的，涉及的大小就需要比较，如果不进行预排序，则会在每次分割的时候需要重新把所有特征进行计算比较一次，如果进行了预排序以后，则每次分割的时候，只需要拿排名靠前的特征就可以了。

1.5 DecisionTreeClassifier的对象/属性

<1> clf.classes_：分类模型的类别
array([0, 1, 2]) #表示0，1，2类别
<2> feature_importances_：特征重要性，以列表的形式输出每个特征的重要性
<3> max_features_：最大特征数
<4> n_classes_：类别数，与classes_对应，classes_输出具体的类别
<5> n_features_：特征数，当数据量小时，一般max_features和n_features_相等
<6> n_outputs_：输出结果数
<7> tree_：输出整个决策树，用于生成决策树的可视化

1.6 DecisionTreeClassifier的方法

<1> decision_path(X)：返回X的决策路径
<2> fit(X, y)：在数据集(X,y)上使用决策树模型
<3> get_params([deep])：获取模型的参数
<4> predict(X)：预测数据值X的标签
<5> predict_log_proba(X)：返回每个类别的概率值的对数
<6> predict_proba(X)：返回每个类别的概率值（有几类就返回几列值）
<7> score(X,y)：返回给定测试集和对应标签的平均准确率