虚拟变量的方法介绍及python实现方式

虚拟变量的定义作用

计量经济学中对虚拟变量给出了定义、作用及使用场景,进一步的深入了解可以系统性学习。

定义:虚拟变量 ( Dummy Variables) ,用以反映无法定量度量的因素,譬如性别对收入的影响,是量化了的质变量,通常取值为0或1。

另外一些名字:又称哑变量、虚设变量、名义变量、属性变量、双值变量、定性变量、二院型变量等

作用:引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实

简单点说,如果有一个数据字段“性别”,里面只有两个元素“男”、“女”,那么转换成为0(男)、1(女)的量化方式,并将每个元素形成一列,便是虚拟变量。譬如:

image

虚拟变量模型

模型定义

虚拟变量的方法介绍及python实现方式_第1张图片

引入到模型有两种基本方式:

image
image
虚拟变量的方法介绍及python实现方式_第2张图片

虚拟变量的设置原则

若定性因素有m个相互排斥的类型或属性,只能引入(m-1)个虚拟变量,否则会陷入"虚拟变量陷阱",产生完全共线性。(如果f(x)没有截距项,应引入m个虚拟变量)

一般情况,虚拟变量取“0”值代表比较的基准

虚拟变量在单一方程中,可以作为解释变量,也可以作为被解释变量

虚拟变量的方法介绍及python实现方式_第3张图片
虚拟变量的方法介绍及python实现方式_第4张图片
虚拟变量的方法介绍及python实现方式_第5张图片
虚拟变量的方法介绍及python实现方式_第6张图片
虚拟变量的方法介绍及python实现方式_第7张图片

python的几种实现方式

准备工作,载入相关的包,准备数据集

import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder,LabelEncoder
oenc=OneHotEncoder(sparse=False)
lenc=LabelEncoder()
store=pd.DataFrame({'gender':[0.0,11.0,'unknow']})

虚拟变量的方法介绍及python实现方式_第8张图片

方式1:通过pandas中的get_dummies生成,

dummies = pd.get_dummies(store['gender'], prefix='gender' )
df=pd.concat([store,dummies],axis=1)
print(df)

虚拟变量的方法介绍及python实现方式_第9张图片


# 通过apply自己构建
df1=store.copy()
for col_feat in df1.gender.unique():
    add_col='gender_{}'.format(col_feat)
    df1[add_col]=df1['gender'].apply(lambda x:1 if x==col_feat else 0)
print(df1)

虚拟变量的方法介绍及python实现方式_第10张图片

# one-hot 先序列化,然后再做独热编码
arr=np.array(store[['gender']].astype(str)).ravel()
lenc_code=lenc.fit_transform(arr)
oenc_code=oenc.fit_transform(lenc_code.reshape(-1,1))
add_col=list(map(lambda x:'gender_{}'.format(x),np.unique(arr)))
df_onehot=pd.concat([store,pd.DataFrame(oenc_code,columns=add_col)],axis=1)
print(df_onehot)

虚拟变量的方法介绍及python实现方式_第11张图片

参考《计量经济学:虚拟变量模型》

你可能感兴趣的:(python,数据分析)