二元分类问题搭建逻辑回归模型

1.读取数据——pandas

#利用pandas读取数据
import pandas as pd
data = pd.read_csv(r"H:\Python\data\adult.data")
cols = ['age','education_num','capital_gain','capital_loss','hours_per_week','label']
data = data[cols]
data.head(8)

运行结果:

二元分类问题搭建逻辑回归模型_第1张图片

2.数据转换及可视化——pandas

#利用pandas进行数据转换和可视化,pandas可以将文字型类别变量转换为数字变量
data["label_code"] = pd.Categorical(data.label).codes #在原数据上生成一个变量“label_code”,这个变量只有两个值:0表示“<=50K”,1表示“>50K”
data[["label","label_code"]].head(8)
import matplotlib.pyplot as plt
data[["age","hours_per_week","education_num","label_code"]].hist()
plt.show(block=False)

运行结果:

二元分类问题搭建逻辑回归模型_第2张图片

3.数据的基本统计信息——pandas

#利用DataFrame的describe函数可以得到数据的基本统计信息,如平均值,均方差等。
#默认的describe智慧显示数值型变量的统计信息,如果想要得到全部变量的统计信息,可使用“describe(include='all')”
data.describe()

运行结果:

二元分类问题搭建逻辑回归模型_第3张图片

4.计算交叉报表

#计算education_num,label交叉报表
#pd.crosstab(pd.qcut(data["education_num"],[0,0.25,0.5,0.75,1]))表示将变量“education_num”按分位数划分为4个区间
cross1 = pd.crosstab(pd.qcut(data["education_num"],[0,0.25,0.5,0.75,1]),data["label"])
print(cross1)
#将交叉图标图像化
from statsmodels.graphics.mosaicplot import mosaic
mosaic(cross1.stack())

运行结果:

你可能感兴趣的:(数据科学,Python,数据科学,逻辑回归模型,二元分类)