特征工程-类别特征处理方法汇总

类别特征处理方法汇总

  • 低基数类别
    • LabelEncoder
    • OnehotEncoder
  • 高基数类别
    • 统计特征
    • 目标编码
    • CatboostEncoder

低基数类别

类别数在10以内的,独热编码类别数最好不超过5

LabelEncoder

在这里插入代码片

OnehotEncoder

高基数类别

类别数大于10的特征列

统计特征

def aggregate_statistic_feature(df, group, target):
    tem = df.groupby([group])[target].agg(['max', 'min', 'sum', 'mean', 'median', 'nunique', 'std', 'skew']).reset_index()
    tem.columns = [group] + [fea+'_'+col for col in tem.columns.values[1:]]
    return tem

目标编码

CatboostEncoder

你可能感兴趣的:(python,开发语言,数据挖掘,机器学习,人工智能)