Decision_Tree && Regression Tree

  • Regression tree中:node split时,是穷举每一个attri的value来计算残差。如果是 node value就是这个node里面的样本均值。

  • 决策树和回归树在 node split 时候,一个是选择最大的信息增益,一个是选择最大的残差增益。具体可以这样理解:

Decision_Tree && Regression Tree

         Info(D) 就是当前node状态下的 entropy_A, 减数表示如果根据A属性进行分裂后的 entropy_B,因为 entropy 表示混乱度,节点越混乱则表示node中的类越杂,或者说残差越大(MSE),但是我们希望 node 中的类越纯越好,或者 node中的误差越小越好,所以应该尽量选择上述1式中减数min的,这样分裂后的结果是非常纯净的。被减数越小,则差越大,所以会有 “选择最大的信息增益或者最大的残差增益”。

  • 关于 Information Gain讲的太多这里不说,主要描述下 残差增益:

         既然是残差增益,首先要计算残差(B),计算分裂后残差的方式就是穷举attri中的每一个val,来计算MSE,选择一个MSE最小的。因为是增益,所以要计算当前节点的本身残差(A),也就是用当前node的预测值和每一个sample做计算得到MSE,然后用 A-B就是 残差增益。注意在 VFDT 模型中,要比较 最大的残差增益和第二大的残差增益,数学变化一下就是用 MSE2nd - MSE1st 和 Hoeffding bound比较。

你可能感兴趣的:(Decision_Tree && Regression Tree)