泰坦尼克之灾_Kaggle

小白根据前人经验尝试对泰坦尼克之灾进行预测分析

一、确认目标

预测乘客是否能在泰坦尼克之灾中幸存下来。

二、数据探索

1. 首先导入数据库和数据:


2. 观察数据,查看数据各列数据类型,数据大小以及缺失值状况

3. 查看老人小孩(假定13岁以下为小孩)的人数占比

三、特征工程

 缺失值处理,按照以下原则对缺失值进行处理:

1. 连续型变量用平均数或者中位数填充;

2. 分类型变量用众数填充;

3. 缺失值>40%的直接丢弃;

训练集和测试集同时进行相同的数据处理流程:

四、建模分析

1. 对sex和Embarked进行one-hot-code处理,

导入库,建立模型的对象,划分数据集,训练模型,然后进行预测:

(如图所示,预测结果的准确度不是很高,说明特征工程做的不好,后面还需要继续加强这方面的练习)

导出预测结果:

a即为乘客Id和对应预测能否幸存的关系表。

你可能感兴趣的:(泰坦尼克之灾_Kaggle)