数据预处理与特征工程

数据预处理与特征工程

一、数据预处理

在利用机器学习处理问题的过程中,通常会对原始数据进行数据清洗操作来提高数据质量。这一过程被称为数据预处理。

  1. 处理对象: 无效数据、重复数据、含缺失值的数据、含异常值的数据、不规范数据。
  2. 处理方法:

(1)删除无效数据和重复数据;
(2)对某些不重要的特征,如存在缺失值,可以删除这一特征;否则根据情况使用合适的填充法补齐缺失值;
(3)对含异常值的数据,可以将异常值当作缺失值处理;也可以根据情况对异常值不进行处理
(4)对不规范数据进行无量纲化处理,将不同规格的数据转换到同一规格,或将不同分布的数据转换到某个特定分布。

  1. 无量纲化:

(1)数据归一化
在特征维度非常多的时候,为了防止某一维或某几维数据影响过大,也为了把不同来源的数据统一到一个参考区间下,需要对数据的某些特征进行归一化处理。
常用的归一化方法是Min-Max Scaling,公式: X = x − m i n m a x − m i n X={x-min \over max-min} X=maxminxmin
(2)数据标准化
常用的标准化方法是Z-score Normalization,公式: X = x − μ σ X={x-μ \over σ} X=σxμ,其中μ是原始数据的均值,σ是原始数据的标准差。进行标准化后可以将数据变换到均值为0,标准差为1的分布中。
(3)连续数据离散化
首先将连续数据分割为几个固定区间,然后根据数值将每组数据分配到相应的区间中。

二、特征工程

在将原始数据进行预处理后,下一步就是要进行特征工程。主要包括特征提取特征选择

(一)特征提取(feature extractor)

  1. 目的:

(1)降低数据维度:进行这一步的前提是足够了解数据,根据数据的业务逻辑从非结构化数据中提取信息作为特征,从而降低特征的维度。
(2)整理已有的数据特征:对某些特征进行组合,得到新的特征。

  1. 提取方法:

(1)主成分分析法(PCA)
(2)独立成分分析法(ICA)
(3)线性判别分析法(LDA)

(二)特征选择(feature selection)

  1. 从特征提取后的特征集中,选择对结果影响较大的特征。
  2. 选择方法:

(1)过滤法(Filter)
(2)嵌入法(Embedded)
(3)包装法(Wrapper)

你可能感兴趣的:(机器学习,人工智能)