浅谈决策树,RF和GBDT

以下内容仅为自己梳理知识,是许多人博客看后和思考的结晶,无故意抄袭,也记不清都看了哪些大神的博客。。。大家看见切勿怪罪!

 

决策树:

  决策树可分为分类树和回归树.

  ID3,C45是经典的分类模型,可二分类,多分类。它是通过挑选对整体区分度较大的属性,朝着混乱程度减小的方向,迭代建立的过程。使得最终也节点中的样本大体上属于同一类。本质上试讲空间分成叶子节点个互不相交的子空间,标明每个空间的属性,达到分类模型的建立。这样,每来一个新的样本,就会被放入唯一的某个子空间,达到预测分类的效果。

  ID3 使用信息熵来表示混乱程度;C45使用信息增益率。

  熵的计算公式: P(X = xi)= pi   

         H(X)= - ∑ plog pi  通常左式log都是以2或者e为底。这是熵的单位是比特(bit)或者纳特(nat),所以熵 只依赖于X的分布,与X的具体值无关,熵越大,随机变量的不确定性越大。

  CART可用于分类也可用于回归,分类时使用的混乱程度表示是Gini指数

 

转载于:https://www.cnblogs.com/mokayy/p/5797209.html

你可能感兴趣的:(数据结构与算法)