sklearn.preprocessing 特征编码汇总

文章目录

        • 常见特征种类
        • one-hot编码
        • 特征哈希(`Feature hashing`)
        • 基于统计的类别编码
        • 对循环特征的编码
        • 目标编码(Target encoding)
        • K折目标编码(K-Fold Target encoding)

用于数据分析的特征可能有多种形式,需要将其合理转化成模型能够处理的形式,特别是对非数值的特征,特征编码就是在做这样的工作。

常见特征种类
  • 二值数据:只有两种取值的变量(不一定是0/1,但是可以映射到{ 0 , 1 } {0,1}{0,1}上)
  • 类别数据:多类的数据,如星期一/星期二/…,不一定是非数值的
  • 有序数据:如对电影的打分,分数之间是有大小关系的
  • 标称(No

你可能感兴趣的:(python机器学习和数据挖掘,sklearn,人工智能,python,pandas,ydata,机器学习)