categorical variable 分类变量的处理流程

# categorical variable 分类变量

针对回归问题:设目标变量为Xi,因变量为y


1. 检查变量Xi是否含有空值,若有,先补充

一般要根据变量的实际意义,并参考其相关的变量进行补值。

例,PoolQC: Pool quality

       Ex    Excellent
              Gd    Good
              TA    Average/Typical
              Fa    Fair
              NA    No Pool

可见,将NA设为"None"即可

 

2. 分析变量Xi与因变量y的关系,以确定Xi是否有序,即应当one-hot-encode还是转为有序数值。

    可采用观察Xi不同取值与y的均值、中位数、count数的关系:

all_data.groupby(by=["MiscFeature"]).agg({"SalePrice":['mean','median','count']})
#                 SalePrice                
#                      mean    median count
#MiscFeature                               
#Gar2         170750.000000  170750.0     2
#None         182046.410384  164250.0  1406
#Othr          94000.000000   94000.0     2
#Shed         151187.612245  144000.0    49
#TenC         250000.000000  250000.0     1

如果Xi各值对应y是无序的,可将其转换为独热编码型;如果有明显的序列关系,应将分类变量转换为有序整数。

你可能感兴趣的:(数据处理,数据处理,eda,空值)