ML之LoR:kaggle比赛之利用泰坦尼克号数据集建立LoR模型对每个人进行获救是否预测

ML之LoR:kaggle比赛之利用泰坦尼克号数据集建立LoR模型对每个人进行获救是否预测

比赛要求:根据训练集数据和测试集数据生成自己的预测模型,按照预测模型来预测出892到1309条数据是否获救,按照比赛规定的格式生成csv文件,并上传到kaggle上,然后会反馈预测的准确率。

导读

泰坦尼克号沉船事故。1912年,当时隶属于英国的世界级豪华客轮泰坦尼克号,因在处女航行中不幸撞上北大西洋冰山而沉没。这场事故使得1500多名乘客罹难。后来,这场震惊世界的惨剧被详细地调查,而且遇难乘客的信息也逐渐被披露。在当时的救援条件下,无法在短时间内确认每位乘客生还的可能性。而今,许多科学家试图通过计算机模拟和分析找出潜藏在数据背后的生还逻辑,通过人工智能算法,尝试揭开这尘封了 100多年的数据的面纱。

一、总体设计思路


ML之LoR:kaggle比赛之利用泰坦尼克号数据集建立LoR模型对每个人进行获救是否预测_第1张图片

二、特征工程处理

1、先看一下泰坦尼克号训练数据集的字段内容

ML之LoR:kaggle比赛之利用泰坦尼克号数据集建立LoR模型对每个人进行获救是否预测_第2张图片

PassengerId : 乘客ID
Pclass : 乘客等级 1,2,3等舱位
Name : 乘客姓名
Sex : 性别
Age :年龄
SibSp : 堂兄弟/妹个数
Parch : 父母与小孩个数
Ticket : 船票信息
Fare : 票价
Cabin : 客舱
Embarked : 登船港口

​​

ML之LoR:kaggle比赛之利用泰坦尼克号数据集建立LoR模型对每个人进行获救是否预测_第3张图片


ML之LoR:kaggle比赛之利用泰坦尼克号数据集建立LoR模型对每个人进行获救是否预测_第4张图片

2、 one-hot encoding 

ML之LoR:kaggle比赛之利用泰坦尼克号数据集建立LoR模型对每个人进行获救是否预测_第5张图片

3、定义绘制学习曲线

ML之LoR:kaggle比赛之利用泰坦尼克号数据集建立LoR模型对每个人进行获救是否预测_第6张图片

三、建模预测


以上代码详见:ML之LoR:kaggle比赛之利用泰坦尼克号数据集建立LoR模型对每个人进行获救是否预测

你可能感兴趣的:(ML之LoR:kaggle比赛之利用泰坦尼克号数据集建立LoR模型对每个人进行获救是否预测)