【机器学习】决策树分类与回归基于sklearn

     前言    

     最近导安排了任务:简而言之就是用少量数据集(二三十行数据)做分类与预测,之前经验不足的时候果断选择了用深度学习模型去做,模型不收敛【但方法本身是广泛应用于数据量较多的情况】利用Keras进行分类【故障诊断(啥类的故障)】,文末有交叉验证的资料。

        所以改变了思路用传统机器学习的决策树分类与回归去做这两个任务。

 

 开源链接:【机器学习】决策树分类 - 飞桨AI Studio - 人工智能学习与实训社区w​​​​​开源链接:【机器学习】决策树分类 - 飞桨AI Studio - 人工智能学习与实训社区w​​​​​

总结

数据量少,特征字段明显适合用树模型,数据量多,特征字段模糊难懂适合深度模型。

//  样本数量少,但样本特征多的时候,模型容易过拟合。
  同理,样本数量少,而模型权重参数多,模型容易过拟合。
  一般来说,样本数比特征数多一些更容易建立健壮的模型。

解释:

数据量少,模型权重数量都比数据集数量多,模型不收敛,没法用。

决策树天生做分类使用,也可做回归,只不过原理一样,返回的是一个数值而已。

改进:

数据量多的时候,可以考虑用lstm进行多维数据融合预测,比如有24h的数据,可以用前12个小时的数据去预测,后面12个小时的数据。(理论上)

数据集体量应该以W为单位。

 参考资料(真正帮助到我的资料)|干货慢慢

决策树:
理论:https://www.cnblogs.com/molieren/articles/10664954.html【精品】
Keras搭建:https://blog.csdn.net/Jwenxue/article/details/107075439
(理论+代码)机器学习——决策树,DecisionTreeClassifier参数详解,决策树可视化查看树结构
https://www.cnblogs.com/baby-lily/p/10646226.html
【Python机器学习】——决策树DecisionTreeClassifier详解【精品】
https://blog.csdn.net/qq_39885465/article/details/104523125
DecisionTreeClassifier实例:Iris莺尾花分类【精品】
https://blog.csdn.net/weixin_43026262/article/details/95473574
机器学习PYTHON决策树(TREE.DECISIONTREEREGRESSOR)算法实例【精品】
https://www.freesion.com/article/966339885/
DecisionTreeClassifier和DecisionTreeRegressor 重要参数调参注意点【精品】
https://blog.csdn.net/u013344884/article/details/79276825
【机器学习-树(分类/回归)】决策树/回归
https://zhuanlan.zhihu.com/p/75019077
【机器学习-树(分类/回归)】决策树主讲三类决策树实现算法 ID3 C4.5 CART决策树
https://zhuanlan.zhihu.com/p/75019077
【skLearn 分类、回归算法】DecisionTreeRegressor 回归树【精品】
① 重要参数、属性及接口
② 交叉验证
③ 实例:正弦一维回归的图像绘制
https://blog.csdn.net/qq_45797116/article/details/113547952?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.no_search_link 

从这模型里我们可以看到,它与之前训练的决策树模型差别非常大。不过实际上由于sk-learn是随机的(它会随机选择一组特征,在每个节点中进行评估),所以即使是在同样的训练数据上,每次训练出来的模型可能都是差别比较大的(除非设置了random_state 超参数)。

随机森林可以限制这种不稳定性,通过在多个树上取平均预测,我们之后会介绍。

与SVM类似,决策树可以完成分类和回归任务,甚至可以完成多输出任务。
决策树也是随机森林的基础组成部分,随机森林就是通过组合不同的大小(深度)的决策树达到很好的效果。

过拟合:指的是模型的训练结果“太好了”,以至于在实际应用的过程中,会存在“死板”的情况,导致分类错误。

欠拟合:指的是模型的训练结果不理想。
造成过拟合的原因:

一是因为训练集中样本量较小。如果决策树选择的属性过多,构造出来的决策树一定能够“完美”地把训练集中的样本分类,但是这样就会把训练集中一些数据的特点当成所有数据的特点,但这个特点不一定是全部数据的特点,这就使得这个决策树在真实的数据分类中出现错误,也就是模型的“泛化能力”差。

泛化能力:指的分类器是通过训练集抽象出来的分类能力,你也可以理解是举一反三的能力。如果我们太依赖于训练集的数据,那么得到的决策树容错率就会比较低,泛化能力差。因为训练集只是全部数据的抽样,并不能体现全部数据的特点。

信息熵:表示信息的不确定度
在信息论中,随机离散事件出现的概率存在着不确定性。为了衡量这种信息的不确定性,信息学之父香农引入了信息熵的概念,并给出了计算信息熵的数学公式。这里我们不是来介绍公式的,而是说存在一种度量,它能帮我们反映出来这个信息的不确定度。当不确定性越大时,它所包含的信息量也就越大,信息熵也就越高。
预测和回归的区别是什么?
把这两个名词摆在一起并不合适。预测是目的,回归是工具。
https://www.zhihu.com/question/45536799

交叉验证(Cross Validation)原理小结 【刘建平Pinard】

那么什么时候才需要交叉验证呢?交叉验证用在数据不是很充足的时候。比如在我日常项目里面,对于普通适中问题,如果数据样本量小于一万条,我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话,我们一般随机的把数据分成三份,一份为训练集(Training Set),一份为验证集(Validation Set),最后一份为测试集(Test Set)。用训练集来训练模型,用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型再用于测试集,最终决定使用哪个模型以及对应参数。

交叉验证(Cross Validation)原理小结 - 刘建平Pinard - 博客园

使用sklearn进行交叉验证【1】
https://www.cnblogs.com/jiaxin359/p/8552800.html
交叉验证在sklearn中的实现【2】
http://blog.sina.com.cn/s/blog_7103b28a0102w70h.html
Python+sklearn使用三种交叉验证方法评估模型泛化能力 【3】
https://www.sohu.com/a/319739887_797291
N折交叉验证的作用(如何使用交叉验证)【精品】
https://zhuanlan.zhihu.com/p/113623623https://zhuanlan.zhihu.com/p/113623623

你可能感兴趣的:(人工智能,机器学习,深度学习,sklearn,决策树,机器学习)