python pandas将分类变量转化为虚拟变量(哑变量)

pandas将分类变量转化为虚拟变量(哑变量)

import pandas as pd
import numpy as np
data = pd.read_csv('train.csv')
data.Department

Department 代表员工所在部门,Sales销售部,Research & Development研发部,Human Resources人力资源部

python pandas将分类变量转化为虚拟变量(哑变量)_第1张图片

下面将其转化为虚拟变量或者one-hot编码:

Department_dummy= pd.get_dummies(data['Department'],drop_first=False,prefix='Department')
Department_dummy.head()

python pandas将分类变量转化为虚拟变量(哑变量)_第2张图片
prefix 代表生成的dummy变量命名前缀,drop_first是剔除第一类的列,因为排除其他类别剩下的类别就是第一类(一般用于解决回归分析中的多重共线性问题)。

下面的一行代码用于将虚拟变量和原始变量,拼在一起(类似矩阵分块,左边一块右边一块),用于建模分析。

train=pd.concat([Department_dummy,data],axis=1)

你可能感兴趣的:(python,数据分析)