特征工程
一、特征归一化:
(1)为什么对数值类型的特征做归一化:
1、是为了得到更加准确的结果,使各项指标处于同一数值量级或者统一到一个大致的数值区间内,以便进行分析。
2、不同数值特征的梯度下降的速度更加的一致,能更快的找到梯度下降的最优解。
(2)常用的数值特征的归一下的方法:
1、线性函数归一化:对原始数据进行线性变换,使得结果映射到【0,1】之间,实现对原始数据的等比例缩放。公式如下:
数据归一化后的值=(原始数据值-数据的最小值)/(数据的最大值-数据的最小值)
2、零均值归一化。它会将原始数据映射到均值为0,标准差为1的的分布上,归一下公式定义为:
归一化后的数据=输入的数据-特征的均值/标准差
特征归一化适用的情况:线性回归、逻辑回归、支持向量机、神经网络等模型 。 不适用的情况:决策树模型不适用(节点分裂主要依赖于信息增益比,与是否归一化无关)
二、类别型特征:
在对数据进行预处理时,应该怎样处理类别型特征:
1、序号编码:处理类别间有大小关系的数据。高-中-低 ->3-2-1
2、狂热编码:处理类别间不具有大小关系的特征。 A-B-AB-O->(1,0,0,0),(0,1,0,0)(0,0,1,0)(0,0,0,1)
取值应该注意的问题:(1)使用稀疏向量来节省空间。(2)配合特征选择来降低维度
3、二进制编码:先用序号编码给每个类别赋予一个类别ID,然后将类别ID的二进制编码作为结果。本质是是哈希映射,维数少于狂热编码,节省了空间。
三、图像数据不足的处理方法:
在图像分类中,训练数据不足会带来什么问题,如何缓解数据不足带来的问题?
模型所提供的信息包括两个方面:1、训练数据中蕴含的信息 2、模型形成过程中(构造,学习,推理等),人们提供的先验信息。
(1)、图像扩充、一定程度内的随机旋转,平移,裁剪,填充,左右翻转。
(2)、对图像中的像素添加噪声扰动,比如椒盐,高斯噪声。
(3)、颜色变换
(4)、改变亮度,清晰度、对比度、锐度。
迁移学习、生成对抗网络。