简单的来说:
LabelEncoder()是标签编码,即是对不连续的数字或者文本进行编号,转换成连续的数值型变量,例如
from sklearn.preprocessing import LabelEncoder le = LabelEncoder() le.fit([1,5,67,100]) le.transform([1,1,100,67,5])
输出: array([0,0,3,2,1])
OneHotEncoder()即独热编码,直观的来看就是有几个需要编码的状态就有几个比特,例如
5个需要编码的,编码结果就是[1,0,0,0,0],[0,1,0,0,0],[0,0,1,0,0],[0,0,0,1,0],[0,0,0,01]
一般用来分类
这是简单直观的区分和介绍两种编码的使用,具体详细的可以参考:https://www.cnblogs.com/king-lps/p/7846414.html,写的非常细致