二、机器学习基础12(类别不平衡、决策树)

类别不平衡(class-imbalance)是指分类任务中不同类别的训练样例数目差别很大的情况。

产生原因:
通常分类学习算法都会假设不同类别的训练样例数目基本相同。如果不同类别的训练样例数目差别很大,则会影响学习结果,测试结果变差。

常见的类别不平衡问题解决方法:

1 、扩大数据集

2 、 对大类数据欠采样(缺点:欠采样操作时若随机丢弃大类样本,可能会丢失重要信息。)

代表算法:EasyEnsemble

3 、 对小类数据 过采样

代表算法:SMOTE 和 ADASYN

4 、使用新评价指标

5 、 选择新算法

6 、数据代价加权

7 、转化问题思考角度

8 、将问题细化分析

决策树

决策树是一种分而治之(Divide and Conquer)的决策过程。一个困难的预测问题, 通过树的分支节点, 被划分成两个或多个较为简单的子集,从结构上划分为不同的子问题。将依规则分割数据集的过程不断递归下去(Recursive Partitioning)。随着树的深度不断增加,分支节点的子集越来越小,所需要提的问题数也逐渐简化。当分支节点的深度或者问题的简单程度满足一定的停止规则(Stopping Rule)时, 该分支节点会停止劈分,此为自上而下的停止阈值(Cutoff Threshold)法;有些决策树也使用自下而上的剪枝(Pruning)法

决策树的三要素:

特征选择、决策树生成、剪枝(预剪枝和后剪枝)

二、机器学习基础12(类别不平衡、决策树)_第1张图片

决策树算法优缺点

决策树算法的优点:
1、理解和解释起来简单,决策树模型易想象。
2、相比于其他算法需要大量数据集而已,决策树算法要求的数据集不大。
3、决策树算法的时间复杂度较小,为用于训练决策树的数据点的对数。
4、相比于其他算法智能分析一种类型变量,决策树算法可处理数字和数据的类别。
5、能够处理多输出的问题。
6、对缺失值不敏感。
7、可以处理不相关特征数据。
8、效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度

决策树算法的缺点:
1、对连续性的字段比较难预测。
2、容易出现过拟合。
3、当类别太多时,错误可能就会增加的比较快。                                                                            4、信息缺失时处理起来比较困难,忽略了数据集中属性之间的相关性。
5、在处理特征关联性比较强的数据时表现得不是太好。
6、对于各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。 

 

你可能感兴趣的:(深度学习,深度学习,机器学习)