使用数据挖掘帮助决定-数据预处理

数据探索和预处理。

注意异常值

注意空值。

把绝对值替换成ratio

计算变量随时间的变化

变量之间的先行组合。

对变量进行操作,取log,取根号

离散变量数值化。

修改单位,

年龄离散化

经纬度坐标转换

创建变量

出生日期可以转化年龄。

均值,方差,最大,最小,最近的频率

使用频率,

删除变量

删除共线性变量,在线性模型中要去除共线性

删除对于结果不想关的变量

降维PCA.

变量类型

1.连续型变量

通过分桶变为离散值

2.离散型变量

变量检测

1.空值检测,异常值检测

2.年龄,人口收入的数据的量级

3.连续变量离散化

1.取1%,10%,25%,50%,75%,90% 99%分位数,通常1%和99%分位数都会被排除,由于太极端。

2.确定变量没有起相同。

3.年龄这些值有范围,需要确定树脂是否在一定范围

Table 3.2 Contingency table. (frequency in thousands)

<20 years

20–64 years

!65 years

TOTAL

TOTAL

15 150

34 250

8 858

58 258

DETECTION OF RARE OR MISSING VALUES 45

Single  Married  Widowed  Divorced 

15 144  100%  6  0%  0  0%  0  0% 

10 935  32%  20 048  59%  844  2%  2 423  7% 

696  8%  4 755  54%  3 079  35%  328  4% 

26 775  46%  24 809  43%  3 923  7%  2 751  5% 

确定缺失原因

是由于偶然缺失还是不完全的观测。如果是不完全的观测,则会导致分析的偏差。

1.不使用该变量,或着用一个相似的变量代替

2.用统计方法填充该值,均值,或中位数,回归,聚类,活用模型预测

3.把缺失值当成一列变量。

当缺失的比例超过15%的时候不应该使用2,3方法。

检测异常值

异常值不一定是极端值,极端值也不一定是异常值。要充分理解数据才能对此进行区分。

是变量的原因还是样本的原因

异常值通常出现的情况

1.固有的日期,不可能出现,

2.bussiness 出现为private

3.单位不统一。

4.性别有多种值

5.职业从业不更新,一直显示学生

6.电话号码格式不正确

检测异常值的方法

1删除这个观测,查看是分布

2把该变量删除,查看该变量是否需要放进去。

3.把这个变量的异常值换成正常值。

1.如果该异常值的范围不在正常范围,应删除

2.如果这个变量会导致结果变差,则应该删除该变量

3.如果该变量只有几个异常值,那应该想办法消除异常值的影响

4.如果变量有大量不正确的值,那么应该避免使用该变量

5.如果该变量特征很强,而且包含少量的异常值,可以把他们替换为空值,然后单独作为一个变量

你可能感兴趣的:(使用数据挖掘帮助决定-数据预处理)