对数据预处理理解

对数据理解:

数据挖掘一般步骤:数据收集——数据预处理——数据分析——数据挖掘

 

数据预处理:一般是重点。最终挖掘的效果好坏,主要看预处理后的数据好不好。所以预处理也许会花费较长的时间。

数据预处理有四个任务,数据清洗、数据集成、数据变换和数据规约。


具体代码参考:

https://blog.csdn.net/Anne999/article/details/69261592?locationNum=3&fps=1

 

一、数据清洗

数据清洗:缺失值处理、异常值处理。

1. 缺失值处理删除记录、数据补差和不处理。 

 对数据预处理理解_第1张图片

一般用均值、中位数补差较多。


2. 异常值处理:分析异常值的原因,再决定取舍。

(1) 删除有异常值的记录 (2)视为缺失值 (3)平均值修正 (4)不处理

 

二、数据集成

将多个数据源放在一个统一的数据仓库中。 

1.实体识别 同名异义 异名同义 单位不统一 
2.冗余属性识别 同一属性多次出现 同一属性命名不一致

 

三、数据变换

对数据进行规范化处理 
1.简单函数变换 
原始数据进行数学函数变换,平方、开方、取对数、差分运算。用来将不具有正太分布的数据变换成具有正太性的数据。 
时间序列分析中,对数变换或者差分运算可以将非平稳序列转换为平稳序列。 
2.规范化 
消除指标间量纲影响 
(1)最小-最大规范化 (归一化)(2)零-均值规范化 (3)小数定标规范化 

3.连续属性离散化 
将连续属性变为分类属性,即连续属性离散化。数据离散化本质上通过断点集合将连续的属性空间划分为若干区,最后用不同的符号或者整数值代表落在每个子区间中的数据。离散化涉及两个子任务:确定分类以及如何将连续属性值映射到这些分类值。 
(1)等宽法 (2)等频法 (3)基于聚类分析的方法

 

4.属性构造 
利用已有的属性构造新的属性,并加到现有的属性中。

例如:将长方形的长和宽,变为面积——减少数据维度。

 

5. 小波变换 
非平稳序列的分析手段。 
基于小波变换的特征提取方法: 
(1)基于小波变换的多尺度空间能量分布特征提取法 
(2)基于小波变换的多尺度空间的模极大特征值提取法 
(3)基于小波变换的特征提取方法 
(4)基于适应性小波神经网络的特征提取方法

 

四、数据规约

降低无效,错误数据对建模的影响,提高建模的准确性。 
少量且代表性的数据将大幅缩减数据挖掘所需时间。 
降低存储数据成本。 

1.属性规约(降维)

1合并属性2逐步向前选择3逐步向后删除4决策树归纳5主成分分析 

6)小波转换

降维技术:主成分分析(应用最为广泛)、因子分析、独立成分分析。

3.数值规约 
通过选择替代的、较小的数据来减少数据量,包含有参数方法和无参数方法两类;1有参数方法使用模型评估数据,不需要存放真实数据,只需要存放参数,例如回归、对数线性模型。

2无参数需要数据,例如直方图、聚类、抽样。 

具体方法:分箱、回归、聚类、决策树、卡方检验。

 

 

数据预处理大概流程参考:https://blog.csdn.net/u011094454/article/details/77618604

 

https://blog.csdn.net/u010089444/article/details/70053104

 



你可能感兴趣的:(数据挖掘)