【机器学习1】特征工程

特征工程是一个表示和展现数据的过程。

1 特征归一化

消除数据特征之间的量纲影响, 需要对特征进行归一化处理。使各指标处于同一数值量级, 以便进行分析。
最常用的方法有以下两种:

1.1 最大最小值归一化

将原始数据变换到[0,1]范围内。
【机器学习1】特征工程_第1张图片

1.2 均值方差归一化

将原始数据映射到均值为0,标准差为1的分布上。
【机器学习1】特征工程_第2张图片
在实际应用中, 通过梯度下降法求解的模型通常是需要归一化的, 包括线性回归、 逻辑回归、 支持向量机、 神经网络等模型。 但对于决策树模型则并不适用, 决策树模型主要依据信息增益比,与特征是否归一化无关。

2 类别型特征

类别型特征原始输入通常是字符串形式, 除了决策树等少数模型能直接处理字符串形式的输入, 对于逻辑回归、 支持向量机等模型来说, 类别型特征必须经过处理转换成数值型特征才能正确工作。

2.1 序列编码

序号编码通常用于处理类别间具有大小关系的数据。例如高表示为3、 中表示为2、 低表示为1, 转换后依然保留了大小关系。

2.2独热编码

独热编码通常用于处理类别间不具有大小关系的特征。例如血型, 一共有4个
取值(A型血、 B型血、 AB型血、 O型血) , 独热编码会把血型变成一个4维稀疏向量, A型血表示为(1, 0, 0, 0) , B型血表示为(0, 1, 0, 0) , AB型表示为(0, 0,1, 0) , O型血表示为(0, 0, 0, 1) 。

2.3二进制编码

先用序号编码给每个类别赋予一个类别ID, 然后将类别ID对应的二进制编码作为结果。
【机器学习1】特征工程_第3张图片

3 图像数据不足时的处理方法

当训练一个图像分类模型时, 如果训练样本比较少, 该如何处理呢?具体到图像分类任务上, 训练数据不足带来的问题主要表现在过拟合方面,即模型在训练样本上的效果可能不错, 但在测试集上的泛化效果不佳。

3.1 基于模型的方法

主要是采用降低过拟合风险的措施, 简化模型(如将非线性模型简化为线性模型) 、 添加约束项以缩小假设空间(如L1/L2正则项) 、 集成学习、 Dropout超参数等

3.2基于数据的方法

主要通过数据扩充,在保持图像类别不变的前提下, 可以对训练集中的
每幅图像进行以下变换:
(1) 一定程度内的随机旋转、 平移、 缩放、 裁剪、 填充、 左右翻转等, 这些变换对应着同一个目标在不同角度的观察结果。
(2) 对图像中的像素添加噪声扰动, 比如椒盐噪声、 高斯白噪声等。
(3) 颜色变换。
(4) 改变图像的亮度、 清晰度、 对比度、 锐度等。
除了直接在图像空间进行变换, 还可以先对图像进行特征提取, 然后在图像
的特征空间内进行变换, 利用一些通用的数据扩充或上采样技术, 例如SMOTE(Synthetic Minority Over-sampling Technique) 算法

3.3 其它方法

生成式对抗网络模型、迁移学习

你可能感兴趣的:(《百面机器学习》,机器学习,人工智能)