数据预处理需要注意的几个问题 《数据之魅》

1,缺失值:

如果个别属性或者整个数据点丢失,我们必须决定如何处理它们。全部记录作废,还是只是为问题中丢失的信息做标记,还是以某种方式回填数据?

2,孤立点:

一般来说,应该非常小心地删除孤立点,因为删除的孤立点,可能正是你一直在寻找的结果,绝对不可以随意把某个数据点删除

3,垃圾:

来自网络的数据可能包含非打印字符或者类似的垃圾。这样的数据不仅没有用,还严重搅乱了尝试执行数据的底层应用程序。

4,规格化和规范化:

有些值可能不是以最适应后续分析的格式出现的。为此,经常使用转换的例子包括:强制转换大小写;删除字符串中的空格,或者用破折号替换空格;用Unix纪元秒、等类似的数值替换时间戳;用字符串标签替换数字代码,或者数字代码替换字符串标签,等等。

5,重复的积累:

数据集通常包含需要确认并删除的重复记录(“”)

6,合并数据集:

我们常常需要合并来自不同来源的数据集。确保数据的真正兼容的,特别是地理上分散的数据库实例

7,数据录入错误:

数据输入的错误:0.01而不是0.0001,或者把值输入错误的列中,诸如此类。由于现在大多数的数据都由电脑产生,传统的偶尔打字排版错误似乎已成为过去时,但要担心工业上的表现:整个数据集系统的损坏。

8,重复的积累:

数据集通常包含需要确认并删除的重复记录(“”)

9,特殊“数值”:

对于数据集中默认值的项,计算机可能会使用特殊的数值来编码,除非这些特殊值被过滤掉,否则它们显然会破坏统计分析。

10,复杂的业务规则和重载数据库字段:

拙劣的架构设计足以彻底破坏数据分析。数据库字段重载是一个致命的问题:字段根据数据库中的其他字段的值改变它们的含义。


推荐几个数据集知识库:
1,统计计算库(statlib)的数据和描述库:http://lib.stat.cmu.edu/DASL   
2,《统计教育》学报的数据存档:http://www.amstat.org/publications/jse
3,UCI机器学习知识库(主要用于分类):http://archive.ics.uci.edu/ml/
4,时间序列数据知识库:http://robjhyndman.com/TSDL/
5,数据集知识库的频繁项目集:http://fimi.cs.helsinki.fi/data/
6,UCINET IV 数据集:http://vlado.fmf.uni-lj.si/pub/networks/data/Ucinet/UciData.htm
7,A Handbook of Small Data Sets,David J.Hand,Fergus Daly,K.McConway,D.Lunn and E.Ostrowski,Chapman&Hall/CRC,1993(一本涵盖了500多个来自各行各业的数据集,本书同时还给出了各个数据集的描述)








你可能感兴趣的:(数据预处理需要注意的几个问题 《数据之魅》)