机器学习之决策树

Outline

1.算法思想

2.概念解释

3.Sklearn Code

Part 1 算法思想

  • 一堆数据,依次根据不同的item依次进行展开分支,如下图所示。关键点在于:什么顺序才最优(根据best-gain优先的原则,算法是贪婪的)
1.gif
  • 一棵树栽培要做的事情(functions):
    1.计算gini impurity和information gain
    2.find best-gain(对feature进行循环,找到最大best-gain)
    3.然后split

  • 决策树的一些限制点:

1.不总是全局最优,即实时存在更优的树的展开,原因在于算法是贪婪的(总是按照最大best-gain展开)
2.易过拟合,实际与算法存在差距。可通过裁剪的方式,后续可以继续深入学习和了解

  • 决策树的构建过程是一个递归过程。函数存在三种返回状态:
    (1)当前节点包含的样本全部属于同一类别,无需继续划分;
    (2)当前属性集为空或者所有样本在某个属性上的取值相同,无法继续划分;
    (3)当前节点包含的样本集合为空,无法划分。\

Part 2 概念解释

  • Gini impurity的计算:

第一幅图:

2.png

第二幅图:结果很明显为0

3.png
  • Weighted Information Gain的定义:
4.png
  • 针对以上内容的补充:

1.信息增益

信息熵是一种衡量数据混乱程度的指标,信息熵越小,则数据的“纯度”越高


5.jpeg

其中pk​代表了第k类样本在D中占有的比例。


6.jpeg

一般的信息增益越大,则意味着使用特征a来进行划分的效果越好。

2.基尼指数

基尼指数反映了从数据集D中随机抽取两个的类别标记不一致的概率。


7.jpeg

使用特征a对数据集D划分的基尼指数定义为上。


8.jpeg

Part 3 Sklearn Code

from cars import training_points, training_labels, testing_points, testing_labels
from sklearn.tree import DecisionTreeClassifier

#print(training_points[0])
#print(training_labels[0])
classifier = DecisionTreeClassifier()
classifier.fit(training_points, training_labels)
print(classifier.score(testing_points, testing_labels))
print(classifier.predict(testing_points))
  • 关于重要参数的说明:

1.criterion
Criterion这个参数正是用来决定模型特征选择的计算方法的。sklearn提供了两种选择:

  • 输入”entropy“,使用信息熵(Entropy)
  • 输入”gini“,使用基尼系数(Gini Impurity)

2.random_state & splitter
random_state用来设置分枝中的随机模式的参数,默认None,在高维度时随机性会表现更明显。splitter也是用来控制决策树中的随机选项的,有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。

3.max_depth
限制树的最大深度,超过设定深度的树枝全部剪掉。这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。

4.min_samples_leaf
min_samples_leaf 限定,一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。一般搭配max_depth使用,在回归树中有神奇的效果,可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。

你可能感兴趣的:(机器学习之决策树)