机器学习笔记(决策树模型)

Decision Tree

Supervised machine learning(监督机器学习):是机器学习的一种方法,可以由训练资料中学到或建立一个模式,进行迭代。

确定目标变量,并通过属性选择尽量把数据分割,来使得目标变量尽量pure

衡量pure程度的值为熵(entropy)

entropy ↓ ⇒ purity ↑

entropy=-p_{1}log_{2}(p_{1})-p_{2}log_{2}(p_{2})-...-p_{n}log_{2}(p_{n})

0表示属性全部一致,1表示p全部相等

entropy值域为[0,1]

p为property比例

计算如

机器学习笔记(决策树模型)_第1张图片

 IG:Information Gain 表示熵的优化增加

计算步骤如下:

计算母集的熵值

计算各子集的熵值

给子集赋权相加

计算IG

机器学习笔记(决策树模型)_第2张图片

 机器学习笔记(决策树模型)_第3张图片

机器学习笔记(决策树模型)_第4张图片 

 机器学习笔记(决策树模型)_第5张图片

我们利用分治算法(Divide-and-conquer algorithm) 来进行决策树的训练,通过不同的属性选择来进行迭代递归,并找到最好的属性进行划分。

当:

-足够pure

-没有属性进行划分时

-限制决策树大小避免过拟合

时我们停止算法

Laplace矫正

我们使用Laplace校正预测概率进行平滑处理

WHY?

因为零概率问题,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。这是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0。

机器学习笔记(决策树模型)_第6张图片

 机器学习笔记(决策树模型)_第7张图片

样本实例越大,Laplace概率越趋于原概率 

决策树模型优缺点:

机器学习笔记(决策树模型)_第8张图片

 

你可能感兴趣的:(机器学习,人工智能,python)