机器学习知识点总结

机器学习知识点总结(1)——特征工程

  • 01 特征归一化
    • 为什么要进行特征归一化
    • 怎么进行特征归一化
    • 进一步说明为什么要进行特征归一化
    • 说明
  • 02 类别型特征

俗话说,“巧妇难为无米之炊”。在机器学习中,数据和特征好比是“米”,模型和算法则是“巧妇”。没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出。特征工程,顾名思义,是对原始数据及逆行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上说,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。
常用的数据类型包括:

  1. 结构化数据 :结构化数据类型可看作关系数据库中的一张表,每列都有清晰的定义,包含了数值型、类别型两种基本类型;每一行数据表示一个样本信息。
  2. 非结构化数据:非结构化数据主要包括文本、图像、音频、视频数据,其包含的信息无法用一个简单的数值表示,也没有清晰的类别定义,并且每条数据的大小各不相同。

01 特征归一化

为什么要进行特征归一化

为了消除数据特征之间量纲的影响,使得不同指标之间具有可比性。例如,分析一个人的身高和体重来衡量一个人的健康水平(使用米(m)和 千克(kg)作为单位),由于身高特征会在1.6-1.8m的数值范围内,体重特征会在50 - 100kg的范围内,分析出来的结果会明显倾向于差别比较大的体重特征,所以想要得到更为准确的结果,就需要进行特征归一化(Normalization)处理,使各指标处于同一数值量级,以便进行分析。

怎么进行特征归一化

对数值类型的特征进行归一化可以将所有的特征都统一到一个大致相同的数值区间内。最常用的方法主要包括以下两种:
(1)线性函数归一化(Min-Max Scaling)。即对原始数据进行线性变换,使结果映射到[0,1]的范围内,实现对原始数据的等比缩放。归一化公式为:
  X n o r m = X − X m i n X m a x − X m i n ( 1 ) \ X_{norm} = \frac {X-X_{min}}{X_{max}-X_{min}} \qquad{(1)}  Xnorm=XmaxXminXXmin1
其中, X X X为原始数据, X m a x X_{max} Xmax X m i n X_{min} Xmin分别为数据最大值和最小值。
(2)零均值归一化(Z-Score Normalization)。它会将原始数据映射到均值为0、标准差为1的分布上。具体来说,假设原始均值为 μ \mu μ,标准差为 σ \sigma σ,那么归一化公式定义为:
  z = x − μ σ ( 2 ) \ z = \frac {x-\mu}{\sigma} \qquad{(2)}  z=σxμ2

进一步说明为什么要进行特征归一化

以随机梯度下降的实例来说明归一化的重要性。假设有两种数值型特征, θ 2 \theta_{2} θ2的取值范围为[0,10], θ 1 \theta_{1} θ1的取值范围为[0,3],于是可以构建一个目标函数符合左下图中的等值图。

机器学习知识点总结_第1张图片 机器学习知识点总结_第2张图片

在学习速率相同的情况下, θ 2 \theta_{2} θ2的更新速度会大于 θ 1 \theta_{1} θ1 ,需要迭代较多的次数才会找到最优解。如果将 θ 2 \theta_{2} θ2 θ 1 \theta_{1} θ1归一化到相同的数值区间后,优化目标的等值图会变成右下图中的圆形, θ 2 \theta_{2} θ2 θ 1 \theta_{1} θ1的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。

说明

数据归一化并不是万能的。在实际应用中,通过梯度下降法求解的模型通常需要进行归一化,此外还包括线性回归、逻辑回归】支持向量机、神经网络等模型。但是。对于决策树模型则并不适用,以C4.5为例,决策树在进行节点分裂时主要依据数据集 D D D关于特征 θ \theta θ的信息增益比,而信息增益比跟特征是否经过归一化是无关的,因为归一化并不会改变样本在特征 θ \theta θ上的信息增益。

02 类别型特征

你可能感兴趣的:(机器学习总结,机器学习)