机器学习:
本单中,
1.介绍了sklearn包的交大模块,分别是:分类,回归,聚类,降维,模型选择及预处理。
2. 介绍了机器学习的4个核心API模块,分别是Ensemble, Pipeline, Multiclass及ModelSelection
3. 介绍了机器学习是如何完成及度量的。
4. 机器学习的分类, 有监督,无监督, 半监督及增强学习。而深度学习和迁移学习,则是模式,并不是一种方法。 重点介绍了有监督学习和无监督学习。
5. 使用实例的方式完成了最简单的有监督学习及无监督学习的基本使用方法。
(1) 数据选择;
(2) 使用采样数据进行学习;
(3) 使用测试数据进行验证;
在使用监督学习和无监督学习时,fit()方法的使用,在参数的使用上有一些区别 。
编码问题
1. 编码的分类 :
One-hot编码, 也称为热独编码, 将某一组特征值使用编码的方式来进行表达的方式,其中只有在特定的特征值位上才能用1进行表示 。
优点:每个特征都有对应的类别, 失踪数据可以编码为全零矢量。
缺点:自由度太大,训练模型不唯一。
2. dummy编码,也称为虚拟编码,虚拟编码可以有k-1个特征值。
优点:在线性回归中,容易被拟合。
缺点:不能轻易处理缺失数据。
3. Effect编码:效果编码
优点:使用不同的代码来避免重复的问题。
缺点:没有单一特征值代表参考类别,而且使用-1的矢量,在存储和计算来时,代价都很昂贵。