clementine 中缺失值的处理

缺失值的存在会导致模型的精度下降,常用的缺失值处理方法有:

1、忽略缺失值字段(设置成none,在建模时忽略改字段的影响,或者过滤掉改字段)。

2、忽略带有缺失值的记录(如果记录很多,且缺失值的记录数据不多时可以考虑用此方法)。

3、用模型中的导出的值替代缺失值(相对比较麻烦)。

 

用户应该考虑缺失值的类型:

连续型:在建模之前就应该剔除任何非数值的值,因为如果在数值型字段中包括空格,那么许多模型都将无法执行。

离散型:例如,set  flag的字符字段类型,改变缺失值并不是必须的,但是改变缺失值可以提高模型的精度。

 

缺失值的替换(考虑类型):

1、在“字段选项”中,选择“填充”

2、在模型中添加“填充”并进行如下设置:

 

双击“填充”,填入要填充的字段,用“@NULL (@FIELD)”   下面用0 填充。

空格的话,可以用“@BLANK (@FIELD)”  

 

空格的话,可以用“@NULL (@FIELD)”  

 

 

你可能感兴趣的:(clementine 中缺失值的处理)