2019-03-10记忆学习:一个case

记忆学习整体流程

  • 数据EDA
  • 特征工程
  • 模型建立,调参CV
  • 模型融合(Ensembling)

都是基于特征集的,不关于预测集

描述性统计及相关性分析

  1. 缺失值info()查看空值/类型
    drop NA
    但是缺失也是信息
    缺失值的填补:例如中值,条件样本均值,联合分布……
  2. describe()
  3. 相关性分析
  4. 数据可视化
    (1)for循环
    (2)apply/.map apply一般对行或者一列进行输入,map是对每一个格进行操作
    train['age'].map(str)

特征工程

CV交叉验证:训练集,测试集。K-fold
5-折:把训练集划分为5份,用1-4训练,预测5,和真实比较,用2-5训练预测1……做5次,评估模型的精度
模型的泛化能力:通过学习更好地预测不知道的东西

模型融合

单模→融合→复模

  • bagging
    随机分离,思想:三个臭皮匠
    投票法voting 100个变量,建立100个决策树(分类器),70个认为会活
    概率,一个分类器认为30%会活,一个认为70%,算概率大于50%就活
    阈值学习
  • boosting(主流,GBDT提升数)
    从前一个分类器的失败里学习,在错误里改进
  • stacking
    把预测的结果当新的特征
    用1234训练,clf,预测5,clf1_pre_5……得到5个分类器clf1,2,3,4,5.同时用这五个分类器预测测试集,作为新增的特征

不平衡问题

99个人是好人,一个罪犯
分类器更倾向于它是一个好人,但是目标是检索出坏人
处理方式:过采样,欠采样(取多组,bagging)
enbalanced:smoote

你可能感兴趣的:(2019-03-10记忆学习:一个case)