徐长亮

决策树和CART算法的精炼详解(尽量写到位,不留"论文债")

1 决策树算法

1.1 决策树简介

1.1.1 什么是决策树

决策树主要有二元分支和多元分支.
决策树是判定树
- 内部结点是决策节点: 对某个属性的一次测试
- 分支: 每条边代表一个测试结果.
- 叶子: 代表某个类或者类的分布
使用决策树进行判别:
- 决策条件-决策路径-叶子(结果)代表分类
决策树的数学模式解题思路:
- 贪心的算法 greedy solution
- 不是最好的树,全局最优解
- 当前的树里面找最好的树,局部最优解.

1.1.2 决策树的决策依据

决策树的目标:
- 最快速完成类别的判定
直观思路
- 应该凸显这种路径: 最有利做出判别
- 最大减少在类别判定上的不确定性
- 纯度上升的更快,更快速到达纯度更高的集合
怎么选择优先进行决策的判定属性
- 好的特征是什么原理?
- 获得更多信息来减少不确定性
- 知道的信息越多,信息的不确定性越小

1.2 信息熵和条件熵

1.2.1 信息熵

1.2.1.1 不确定性

信息量的度量就等于不确定性的多少
- 信息熵高:我们一无所知的事，就需要了解大量的信息
- 信息熵低:我们对某件事已经有了较多的了解，我们就不需要太多的信息

1.2.1.2 信息熵的公式

对数的运算法则
$log_a(mn)=log_am+log_an$
概率的公式
$p (x, y) = p (x) p (y)$
两个事件同时发生的信息等于各自信息的和
$I (x, y) = I (x) + I (y)$

随机变量 x 的自信息
$I (x) = - l o g p (x)$

负号是用来保证信息量是正数或者零
描述的是随机变量的某个事件发生所带来的信息量

信息熵: 传送一个随机变量传输的平均信息量是 $I (x) = - l o g p (x)$ 的期望
$H\left(X\right)= -\sum_{i=1}^{n}p\left(x_{i}\right)log\left(p\left(x_{i}\right)\right)$

1.2.1.3 信息熵的解读

随机变量 x 的熵,它是表示随机变量不确定的度量，是对所有可能发生的事件产生的信息量的期望
随机变量的取值个数越多，状态数也就越多，信息熵就越大，混乱程度就越大

1.2.2 联合熵

$H(X,Y)=-\displaystyle\sum_{x,y}p(x,y)logp(x,y)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p(x_i,y_i)logp(x_i,y_i)$

1.2.3 条件熵

条件熵 H(Y|X) 表示在已知随机变量 X 的条件下, 随机变量 Y 的不确定性
条件熵 H(Y|X) 定义为 X 给定条件下, Y 的条件概率分布的熵对 X 的数学期望
相当在不同X的信息熵,加上X的值的概率的加权

1.2.3.1 条件熵公式

假设X有n个取值
$H(Y|X)=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i)$

见识Y有m个取值
$H(Y|X=x_i) = - \sum_{j=1}^{m} p(y_j|X=x_i)\log p(y_j|X=x_i)$

所以
$H(Y|X)=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) \\ =\sum_{i=1}^{n} p(x_i)\left(- \sum_{j=1}^{m} p(y_j|X=x_i) \log p(y_j|X=x_i)\right)\\ =-\sum_{i=1}^{n}p(x_i) \sum_{j=1}^{m} p(y_j|x_i) \log p(y_j|x_i)$

1.2.3.2 H(Y|X)条件熵的理解

在已知一些信息的情况下，因变量 Y 的不纯度，
- 即在X 的划分下，Y 被分割越来越“纯”的程度，
- 即信息的加入可以降低熵
条件熵表示在已知随机变量 X 的条件下，Y 的条件概率分布的熵对随机变量 X的数学期望

1.2.4 联合熵和条件熵的关系

$H\left( {Y\left| X \right.} \right) = H\left( {X,Y} \right) - H\left( X \right)$

引用别人的证明公式为:
$\begin{array}{l} H\left( {Y\left| X \right.} \right) = H\left( {X,Y} \right) - H\left( X \right)\\ = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {P\left( x \right)} \log P\left( x \right)\\ = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {\left( {\sum\limits_y {P\left( {x,y} \right)} } \right)} \log P\left( x \right)\\ = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {\sum\limits_y {P\left( {x,y} \right)} } \log P\left( x \right)\\ = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log \frac{{P\left( {x,y} \right)}}{{P\left( x \right)}}\\ = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {y\left| x \right.} \right)\\ = - \sum\limits_x {\sum\limits_y {P\left( x \right)} } P\left( {y\left| x \right.} \right)\log P\left( {y\left| x \right.} \right)\\ = - \sum\limits_x {P\left( x \right)\sum\limits_y {P\left( {y\left| x \right.} \right)} } \log P\left( {y\left| x \right.} \right)\\ = \sum\limits_x {P\left( x \right)\left( { - \sum\limits_y {P\left( {y\left| x \right.} \right)} \log P\left( {y\left| x \right.} \right)} \right)} \\ = \sum\limits_x {P\left( x \right)H\left( {Y\left| {X = x} \right.} \right)} \end{array}$

1.3 ID3算法

1.3.1 信息增益

信息增益表示

得知特征X的信息, 使得类Y的信息不确定性(信息熵)减少的程度
- 划分前样本集合D的熵是一定的，entroy(前)，
- 使用某个特征A划分数据集D，计算划分后的数据子集的熵 entroy(后)
- 信息增益 = entroy(前) - entroy(后)

信息增益的符合表示

特征A对训练数据集D的信息增益 $g (D, A)$ ,定义为集合D的经验熵 $H (D)$ 与特征A给定条件下D的经验条件熵 $H (D ∣ A)$ 之差：
$g (D, A) = H (D) - H (D ∣ A) g (D, A) = H (D) - H (D ∣ A)$
考虑条件熵和联合熵的关系
$g (D, A) = H (D) - H (D ∣ A) = H (D) - (H (D, A) - H (A)) = H (D) + H (A) - H (D, A)$
这个公式让我们想到集合的交集公式

信息增益的含义

最大减少在类别判定上的不确定性,更快的判定类别
纯度上升的更快,更快速到达纯度更高的集合

1.3.2 ID3的算法流程

（1）自上而下贪婪搜索
（2）遍历所有的属性，按照信息增益最大的属性进行分裂
（3）根据分裂属性划分样本
（4）重复上述流程，直至满足条件结束

1.3.3 ID3算法的缺陷

缺陷1

缺点：信息增益偏向取值较多的特征
原因：当特征的取值较多时，根据此特征划分更容易得到纯度更高的子集，因此划分之后的熵更低，由于划分前的熵是一定的，因此信息增益更大，因此信息增益比较偏向取值较多的特征

极端情况

二维表的主键id

其他缺陷

不能处理连续值属性
不能处理属性值缺失情况
不能进行剪枝

1.4 C4.5算法

1.4.1 信息增益率

可以理解为: 信息增益率 = 分裂信息将信息增益的标准化
或者理解为: 信息增益率 = 惩罚参数 * 信息增益

分裂信息:

之前是把集合类别作为随机变量，现在把某个特征作为随机变量，按照此特征的特征取值对集合D进行划分v类，计算熵 $H_A(D)$
$SplitH_{A}\left(D\right)= -\sum_{j=1}^{v}\frac{|D_{j}|}{D}log\frac{|D_{j}|}{D}$

信息增益率
$GainRadion\left(A\right)= \frac{g\left(A,D\right)}{SplitH_{A}\left(D\right)}$

1.4.2 连续值属性和分裂点

步骤:

(1)连续值属性从小到大排序,每对相邻点的中点作为分裂点
(2)数据集D中有N个不同的连续值属性值, 产生N-1个分裂点
(3)按照每个分裂点,计算每个二分树的信息增益
(4)取得信息增益最大的分裂点

1.4.3 缺失值处理

1.4.3.1 学习过程中-缺失值处理

信息增益

计算信息熵,忽略缺失值
计算信息增益, 乘以未缺失实例的比例

分裂信息熵

缺失值当做正常值处理

分裂时候

缺失值实例分配给所有判断节点下面的分支上
但是每个分支的缺失值实例带一个权重: 该分支的概率(频率估算)
其他正常实例权重为1

叶节点定义

(N/E)形式
- N该叶节点的实例数
- E叶节点中属于其他分类的实例数

1.4.3.2 分类过程-缺失值处理

缺失值该属性的遍历所有的分支
- 该属性的所有分支的概率: 分支的叶子节点的N必上所有N的比值
因为叶节点是NE的形势.
- 正例概率: N/E
- 反例概率: E/N
根据分支的概率,叶节点的正例概率反例概率的加权和

1.4.4 剪枝

1.4.4.1 过拟合

训练样本中的噪声导致过拟合

错误的属性值和标签值

训练样本中缺乏代表性样本所导致的

训练样本过少的时候,模型很容易受到过拟合的影响

1.4.4.2 预剪枝

限定树的的最大生长高度

1.4.4.3 后剪枝

后剪枝的目标
在测试集上定义损失函数,通过剪枝使损失函数在测试集上有所降低

步骤

(1)自底向上遍历每一个非叶子节点, 将当前的非叶子节点剪枝(从树中减去,其下所有的叶节点合并一个节点,代替被剪枝的节点)
(2)计算剪枝前后的损失函数
(3)如果损失函数变小, 则剪枝. 否则则还原.
(4)重复上述过程,遍历所有的节点

子树的损失函数
$J(\tau) = E(\tau) + \lambda |\tau|$

带惩罚项

后剪枝的损失函数阈值
$\frac{E(c) - E(\tau_c)}{|\tau_c| - 1} \lambda_k = \min(\lambda, g(c))$

注意

子树的损失函数不做过多介绍,
感兴趣可以参考博客:CART-分类和回归树
https://blog.csdn.net/guoziqing506/article/details/81675022

2 CART算法

2.1 基尼不纯度gini impurity

或者称为基尼指数gini index
区别于基尼系数gini coefficient, 两者概念不同

假设有K个类，样本点属于第k类的概率为 $p_{k}$ ，则概率分布的基尼指数定义为：
$G(p)=\sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$
满足的条件:
$\sum_{k=1}^{K}p_k=1$

2.1.1 基尼指数公式的推导

$- l o g p (x)$ 进行泰勒展开, $p (x)$ 的高阶趋于0,忽略高阶项.就得到基尼指数(不纯度)的公式

基尼不纯度的计算可以看出，它的计算更加方便，
基尼不纯度是熵的一个近似值

2.1.2 二分类的基尼指数

对于二分类问题，如果样本点属于第一类的概率为p,则概率分布的基尼系数为

$G i n i (p) = 2 p (1 - p)$

设 $C_k$ 为D中属于第k类的样本子集，则基尼指数为
$Gini(D)=1-\sum_{k=1}^K(\frac{|C_k|}{|D|})^2$

设条件A将样本D切分为D1和D2两个数据子集，则在条件A下的样本D的基尼指数为：
$Gini(D,A)=\frac{|D_1|}{D}Gini(D_1)+\frac{|D_2|}{D}Gini(D_2)$

2.2 CART分类树

条件A, 将样本D, 切分为D1和D2两个数据子集的gini增益为
$\Delta Gini(A)=Gini(D)-Gini(D,A)=(1-\sum_{k=1}^K(\frac{|C_k|}{|D|})^2)-(\frac{|D_1|}{D}Gini(D_1)+\frac{|D_2|}{D}Gini(D_2))$

2.2.1 算法实现步骤

1）计算现有样本D的基尼指数，之后利用样本中每一个特征A，及A的每一个可能取值a，根据A>=a与A
2）找出对应基尼指数最小Gini(D,A)的最优切分特征及取值，并判断是否切分停止条件，否，则输出最优切分点
3）递归调用1）2）
4）生成CART决策树

2.3 CART回归树

2.3.1 CART回归树的概念和公式

(1)训练集: $\{(X_1, y_1), (X_2, y_2), \dots, (X_n, y_n)\}$ , $Y$ 是连续变量
(2)输入数据空间 $X$ 划分为m个区域: $\{R_1, R_2, \dots, R_m\}$
(3)然后赋给每个输入空间的区域 $R_i$ 有一个固定的代表输出值 $C_i$
(4)回归树的模型公式:
$\sum_{i = 1}^m C_i I(X \in R_i)$
- 如果 $\in R_i$ ,则 $I = 1$ ,否则 $I = 0$
- **含义:**先判断X属于哪个区域，然后返回这个区域的代表值。
(5)计算损失函数:
- $R_i$ 这个区域中的元组的y值的均值
  $g_i = \frac{1}{N_i} \sum_{X_j \in R_i} y_j$
- 某个区域 $R_i$ 回归模型的损失函数
  $\sum_{X_j \in R_i} (f(X_j) - g_i)^2$

2.3.2 最小二乘回归树生成算法

注: 参考李航的<机器学习>编写, 更详细内容,请自行搜索资料查看

(1)选择最优切分变量 j 与切分点 s，求解
$\min_{j,s}\left [\min_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+\min_{c_2}\sum_{x_i \in R_2(j,s)} (y_i-c_2)^2 \right]$
(2)用选定的对 (j,s) 划分区域并决定相应的输出值
$R_1(j,s)=\{x|x^{(j)} \le s\},\quad R_2(j,s)=\{x|x^{(j)}\gt s\}$
(3)继续对两个子区域调用步骤(1),(2)，直至满足停止条件
(4)将输入空间分为 M 个区域 $R_1,R_2,\cdots,R_M$ ,生成决策树
$f(x)=\sum_{m=1}^M \hat c_m I(x\in R_m)$

你可能感兴趣的:(clark_ai_lab)

矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。