7.竞赛-kaggle-泰坦尼克梳理

1. 数据预处理

  1. int Folat 类型: 'Fare', 'SibSp', 'Age', 'Parch', 'Pclass'
    • Fare:
    • SibSp:
    • Parch:
    • Age: [5,15,35,50],缺失未处理
    • Pclass: 未处理
  2. object 类型: * 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'
    • Name 简单提取职称
    • Sex 简单编码
    • Ticket 暂不处理,丢弃
    • Cabin 缺失值较少用众数填充,用首字母分类
    • EMbarked 缺失数据自成一类
  3. 先处理object,然后处理离散变量,最后连续变量

2. 模型

  • 选择模型
    • 网格搜索
    • 学习曲线
    • 交叉验证
    • 特征的重要程度
    • 重要特征组合
  • 对过个模型做以上步骤

3. 模型融合

3.1 stacking

3.2 blending

你可能感兴趣的:(7.竞赛-kaggle-泰坦尼克梳理)