动手学数据分析task05 数据建模及模型评估

特征工程

缺失值的填充

分类型变量

  • 填充某个缺失值字符(NA)
  • 用最多类别的进行填充

连续型变量 填充均值、中位数、众数

第一步:查看所有属性列中有哪些有缺失值

train.isnull().sum().sort_values(ascending=False)

动手学数据分析task05 数据建模及模型评估_第1张图片

第二步:查看某一个属性列有多少种取值,并排序

动手学数据分析task05 数据建模及模型评估_第2张图片

  • 注意两种区别:一种是对index排序,一种是对value排序

第三步:根据是连续型还是分类型选择不同方法填充

动手学数据分析task05 数据建模及模型评估_第3张图片

第四步 查看并检验

动手学数据分析task05 数据建模及模型评估_第4张图片

编码分类型变量(机器学习只可以处理数值)

data = pd.get_dummies(data)
是利用pandas实现one hot encode的方式

动手学数据分析task05 数据建模及模型评估_第5张图片
处理前后对比:

动手学数据分析task05 数据建模及模型评估_第6张图片

模型搭建

动手学数据分析task05 数据建模及模型评估_第7张图片

切分训练集和测试集

切割方法

  • 按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
  • 按目标变量分层进行等比切割

注意

  • 要设置随机种子以便复现
  • 可以先确定好x和y在切割,也可以先切割完在找x和y

逻辑回归模型

  • 可以调节的参数就是max_iter

动手学数据分析task05 数据建模及模型评估_第8张图片

随机森林模型

动手学数据分析task05 数据建模及模型评估_第9张图片
动手学数据分析task05 数据建模及模型评估_第10张图片

预测

  • predict是预测结果
  • predict_proba是对于所有分类结果的分类概率;在本文中,只有幸存与否两种结果,所以对于两个的概率

动手学数据分析task05 数据建模及模型评估_第11张图片

模型评估

交叉验证

动手学数据分析task05 数据建模及模型评估_第12张图片
动手学数据分析task05 数据建模及模型评估_第13张图片

混淆矩阵

动手学数据分析task05 数据建模及模型评估_第14张图片
动手学数据分析task05 数据建模及模型评估_第15张图片

ROC曲线

  • ROC曲线下面所包围的面积越大越好
    动手学数据分析task05 数据建模及模型评估_第16张图片

你可能感兴趣的:(深度学习,数据分析,数据挖掘,人工智能)