数据预处理技术

进行数据挖掘和机器学习之前,必须保证数据是可靠、可用的。

这就要通过一定技术,对数据进行处理和转换,将原始数据转化成算法和模型需要的格式和内容。

这就是数据预处理技术,其对数据挖掘效果的好坏,预测结果的正确性具有基础性的作用。


数据预处理一般包括:数据清洗、集成、转换、规约。

数据清洗:

目的:格式标准化、异常数据清理、错误纠正、重复数据清除。

主要任务:缺失值处理、去噪。

缺省值的处理:忽略元祖、人工填写、使用全局常量、使用属性中位数、使用属性平均值、使用同类样本属性平均值或中位数。

去噪:噪声由随机误差产生。去噪的方法:舍弃噪声数据、噪声平滑、人工检查。

去噪的数据平滑方法:分箱(等深、等宽)、回归。

数据集成:

目的:集成多个数据源的数据,增大数据完整性

数据转化:

目的:将数据抓换成数据挖掘算法、机器学习算法接受的格式。

方法:线性归一化,Z-score规范化为标准高斯分布。

数据规约:

目的:降低数据维度,在不丢失数据信息量的情况下。

方法:采样(均匀采样、分层采样);PCA主成分分析,SVD奇异值分析。


参考文章

1、http://www.cnblogs.com/ss815367696/p/4051046.html

2、http://blog.csdn.net/lizhengnanhua/article/details/8982968

你可能感兴趣的:(数据预处理)