机器学习过程中遇见过的pandas库函数记录与总结

1.pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

该函数通常用于将样本中的离散变量进行编码的场景中:

(1)data即为需要转换的离散变量,包括数组,序列,datdaframe

(2)prefix为: string, list of strings, or dict of strings, default None

该变量是用于追加在dataframe列名的,调用get_dummies时,传递一个长度等于列数的列表。

(3)prefix_sep顾名思义就是分隔符

(4)dummy_na:bool, default False

默认是false,如果离散变量中有无穷项,false情况下编码会忽视无穷

如果为true的话编码会考虑无穷项

(5)columns : list-like, default None

用于指定列编码,如果为none则对转换对象的所有进行编码

(6)drop_first:bool, default False

除去第一个离散类别

你可能感兴趣的:(一知半解之机器学习开发工具)