数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。
需要考虑字段表达不一样,以及属性冗余。将源数据在最底层上加以转换,提炼,集成。
1:数据变换
目的:适用于挖掘的任务以及算法的需要
(1):简单函数变换:平方,开方,取对数,差分运算等
简单的函数变换用来将不具有正态分布的数据变换成具有正态分布的数据。在时间序列分析中,有时简单的对数变换或者差分运算就可以将非平稳序列转换成平稳序列。在数据挖掘中简单的函数变换很有必要。
(2):为了清除指标之间量纲和取值范围的差异影响,将数据按照比例进行缩放,使之落在指定的范围内。
最小---最大规范化
零---均值规范化
小数定标规范化
(3)连续属性离散化
有些分类算法(如ID3算法,Apriori算法等)要求数据是分类属性,故需要将联系性属性转换成分类属性,称连续属性离散化。
等宽法
等频法
基于聚类分析的方法
(4)属性构造
(5)小波变换
数据规约
属性规约:合并属性,逐步向前选择,逐步向后删除,决策树归纳,主成分分析
数值规约:统一数值