Kaggle-Titanic生存预测-数据分析-随机森林

Titanic生存预测-数据分析

                                  *数据分析学习之路*                   

1.当我们拿到一个数据,首先要对数据进行观察,可以用Excel等工具,这里我
使用的是jupyter notebook

Kaggle-Titanic生存预测-数据分析-随机森林_第1张图片
Kaggle-Titanic生存预测-数据分析-随机森林_第2张图片
首先对数据进行观察,并进行简单的预处理
我们发现表中Age有177个缺失值,Cabin的缺失值更多
我们将对Age进行平均值的填充,而Cabin不好进行填充,因为缺失条件太多

Kaggle-Titanic生存预测-数据分析-随机森林_第3张图片
2.在对数据进行填充完成过后,我们心中应该是对数据的特征以及特征值的类型都有一定的了解,接下来我们先简单的猜测一下,什么特征是和Survived_Rate息息相关的
Kaggle-Titanic生存预测-数据分析-随机森林_第4张图片
从上图分析得出,性别确实对生存率有影响的,女性的生存几率明显高于男性

Kaggle-Titanic生存预测-数据分析-随机森林_第5张图片
可以明显的看到3仓位的死亡率是最高的
Kaggle-Titanic生存预测-数据分析-随机森林_第6张图片
S登船口的存活人数较多,存活率应该是受到登船口影响
Kaggle-Titanic生存预测-数据分析-随机森林_第7张图片
Kaggle-Titanic生存预测-数据分析-随机森林_第8张图片
那么年龄呢?
Kaggle-Titanic生存预测-数据分析-随机森林_第9张图片
可以看出孩子的生存率比其他年龄段的都要高

以上的特征都说明它们或多或少跟生存率是有关联的,我们可以认为这些特征是有用的

3.根据以上特征,首先对特征值进行数值化,再构建随机森林进行交叉验证
Kaggle-Titanic生存预测-数据分析-随机森林_第10张图片
Kaggle-Titanic生存预测-数据分析-随机森林_第11张图片
最后得出来78%的预测值

你可能感兴趣的:(Kaggle-Titanic生存预测-数据分析-随机森林)