[DataAnalysis]常用数据预处理方法汇总

常用的包括聚集、降维、离散化和标准化等

聚集aggregating

将两个或多个对象合并成单个对象,但是难免会丢失细节。

抽样sampling

统计学使用抽样是因为得到感兴趣的整个数据集成本太高、太费时间,但是数据挖掘使用抽样是因为处理所有的数据的费用成本太高、太费时间。

抽样方法包括:简单随机抽样;分层抽样等。

维归约(降维)

数据集可能包含大量特征,选择维归约是维度降低许多数据挖掘算法的效果会更好,因为一方面是因为维归约可以删除不相关的特征并降低噪声,模型更容易理解,可视化也更容易实现;另一方面是因为维灾难。

维灾难是指:随着数据维度增加,数据在它所占据的空间中越来越系数。对于分类可能意味着没有足够的数据对象来创建模型,将所有可能的对象可靠地指派到一个类。对于聚类,点之间的密度和距离的定义失去了意义。结果是对于高维数据,许多分类算法准确率下降,聚类质量下降。

特征子集选择:

(1)嵌入方法:算法本身包含特征选择

(2)过滤方法:在数据挖掘算法运行前就进行特征选择,比如选择相关度尽可能低的属性集合。

(3)包装方法:将目标数据挖掘算法作为黑盒,并不枚举所有可能的子集来找出最佳属性子集。

(4)特征加权:也属于一种保留或删除特征的办法。特征越重要则赋予的权值越大,而不太重要的特征赋予较小的权值。

特征创建

由原来的属性创建新的属性集,从而更有效地捕获数据集中的重要信息。并且新属性可能是由多个旧属性创建的,从而数目可能比原属性少。

(1)特征提取:由原始数据创建新的特征集。比如图像识别中按照照片是否包括人脸创建新的特征。

(2)映射数据到新的空间:比如对时间序列实施傅里叶变换可以转化为频率信息明显的表示;小波变换

(3)特征构造:原始数据集具有必要的信息但是其形式不适合数据挖掘算法,在这种情况下一个或多个由原特征构造的新特征可能比原特征更有用。

离散化和二元化

1、连续变量离散化

2、对于标称变量构造哑变量进行二元化

变量变换

常用的变量变换就是规范化或者标准化。

你可能感兴趣的:(数据分析)