科普——随机森林和决策树

参考链接
随机森林
决策树
一、决策树
(一)决策树是什么?
1.概念:采用树形节点,层层推理实现最终的分类

  • 根节点,包含样本的全集
  • 内部节点,对应特征的分类
  • 叶节点,决策的结果
    (二)决策树的使用方法?
    特征学习的3个步骤
  • 特征选择:选择与结果相关度更高的特征
  • 决策树生成:对每个子节点采用相同的方式生成新的子节点
  • 决策树剪枝:防止过拟合
    (三)决策树的优缺点
    优点:
  • 易于理解
  • 适合处理有缺失属性的样本
  • 能够处理不相关的特征
  • 处理速度快
    缺点
  • 容易发生过拟合
  • 能够忽略属性之间的相关性
    二、随机森林
    (一)随机森林是什么?
    由多个不相关的决策树组成,进行分类任务时,新的样本进入,让森林中每一棵决策树分别进行判断和分类。决策树的分类结果哪一个最多就会把这个结果当成最终结果。
    (二)随机森林的使用方法?
  • 随机抽样,训练决策树
  • 随机选取属性,做节点分裂,建立大量决策树形成森林
    (三)随机森林的优缺点
    优点
  • 可以处理高维的数据
  • 能够判断特征的重要程度,特征之间的相互印象
  • 对于不平衡的数据集,可以平衡误差
    缺点
  • 大量决策树,需要更多的资源

你可能感兴趣的:(知识积累,决策树,随机森林,机器学习)