数据预处理(一)——数据预处理的必要性

主要内容:
数据预处理的必要性
数据清洗
数据集成
数据标准化
数据规约
数据变换与离散化
利用sklearn进行数据预处理
小结

一、数据预处理的必要性

1.数据的不一致
各应用系统的数据缺乏统一的标准和定义,数据结构有较大的差异
2.噪声数据
收集数据时很难得到精确的数据,如数据采集设备故障、数据传输过程中会出现错误或存储介质可能出现的损坏等情况
3.缺失值
系统设计时可能存在的缺陷或者在系统使用过程中人为因素的影响

数据质量要求

数据挖掘需要的数据必须是高质量的数据,即数据挖掘所处理的数据必须具有准确性(Correctness)、完整性(Completeness)和一致性(Consistency)等性质。此外,时效性(Timeliness)、可信性(Believability)和可解释性(Interpretability)也会影响数据的质量。

你可能感兴趣的:(python机器学习与数据挖掘,python,机器学习)