机器学习建模的数据特征工程—— 《Python深度学习》读书笔记(3)

本系列文章是对《Python深度学习》这本书阅读过程中,提炼出来的读书笔记。

《Python深度学习》这本书的作者是Keras之父,也是Tensorflow框架的贡献者,本书的特点是,作者从一个编程学习者的角度来描述机器学习,而不是堆上来复杂的数学公式和函数变换。所有的数学理论或者公式,都用程序的方式描述出来,对于没有数学功底的开发者来说是一个很大的福利。不过当然,后期还是离不开数学,但作为入门来说这本书就相当的好了。

前置课程:

机器学习的数学基础—— 《Python深度学习》读书笔记(1)

机器学习的模型概念和构建方法入门—— 《Python深度学习》读书笔记(2)

本章主要讲的是机器学习的数据特征工程方面的问题,什么是数据特征工程?

比如说你手上现在有一大批数据,这些数据有些是因为数据采集人员手误输错了;有的是因为没有及时输入数据导致数据中断或缺失;有的是特殊的原因造成数据不正常波动,如大旱或洪涝时期的粮食收成。对于这样的错误数据,缺失数据,异常波动数据,直接让机器学习只会让机器得出的模型偏差很大,那么你要怎么把手中的脏数据,清洗成合理的格式用于输入?这就是数据特征工程。

本章知识点:

1.机器学习的四个分支

监督学习,数据之间有映射关系的,比如训练机器学习1000张被标注“狗”标签的图片

无监督学习,只给你一批数据,你并不知道数据之间有什么内在关系,就让他自己学习,自我发现数据之间的内在联系。

自监督学习,用未来的数据来训练当前的结果,如时间序列预测的训练

强化学习,用于游戏,通过对当前场景的变化信息,学习如何使游戏获得的得分或奖励最大化

2.数据训练集的划分

如果你手上数据很多,那就简单的留出一部分数据不进行训练,用于后期的数据验证。

如果你手上数据不多,全拿来训练都不够用,但还要留出一部分用来验证,那就要用K折验证。所谓K折验证,就是把数据分为K份,首尾相接形成闭环,翻来覆去的训练。

对于没有时序关系的数据,可以使用重复的K折验证,也就是把分成K份的数据打乱后进行组合,这样能得到更多的数据。

3.数据特征工程内容

向量化,标准化,归一化,缺失值处理,数据编码方式one-hot code

4.数据的过拟合,欠拟合,以及解决办法

数据损失函数值越来越小,说明还有继续小下去的潜力,那就是欠拟合。

数据损函数值先变小,小到一定程度又变大,当他变大时就是过拟合了。那个最小值点就是最佳拟合点。一个最优的模型一定要有一个过拟合过程,才能找到最优的拟合点。

解决办法:减小或增大网络的大小,对权重的L1,L2正则化,神经节点的dropout正则化。

所谓正则化,是强制让模型权重只能取较小的值,从而限制模型的复杂度,这使得权重值的分布更加规则。其实现方法是向网络损失函数中添加与较大权重值相关的成本。

L1 正则化(L1 regularization):添加的成本与权重系数的绝对值[权重的 L1 范数(norm)]成正比。
L2 正则化(L2 regularization):添加的成本与权重系数的平方(权重的 L2 范数)成正比。神经网络的 L2 正则化也叫权重衰减

PS:奥卡姆剃刀原理是说,越简单的东西越可靠,模型层中,越多的权重系数能储存更多的信息,但也更容易过拟合,那么对于权重系数的数量,我们设定一个规则,每增加一个权重系数,就给网络的损失值增加一定比例,以防止过快的过拟合。

5.建模的流程及优化方法

定义需要建模的问题,

选择衡量模型是否有效的指标,

确定训练集,验证集,测试级的划分方法,

数据的准备和格式化,

建立一个符合常识的基准模型,

数据的欠拟合-过拟合处理

模型的正则化与超参数

6.常见的数据场景所适用的模型结构

见页底的图表


 

机器学习建模的数据特征工程—— 《Python深度学习》读书笔记(3)_第1张图片

 

机器学习建模的数据特征工程—— 《Python深度学习》读书笔记(3)_第2张图片

 

机器学习建模的数据特征工程—— 《Python深度学习》读书笔记(3)_第3张图片

你可能感兴趣的:(读书笔记,金融中的机器学习)