机器学习-泰坦尼克号幸存者预测

机器学习-泰坦尼克号幸存者预测

泰坦尼克灾难数据描述

  • PassengerId:乘客的ID号,这个是顺序编号,用来唯一标识一名乘客。这个特征和幸存与否无关,我们不使用这个特征。
  • Survived:1表示幸存,0表示遇难。这个是标准数据。
  • Pclass:仓位等级,是很重要的特征。看过这部电影的读者都知道,高仓位等级的乘客能更快地到达甲板,从而更容易获救。
  • Name:乘客名字,这个特征和幸存与否无关,丢弃这个特征。
  • Sex:乘客性别,看过电影的读者都知道,由于救生艇数量不多,船长让妇女和儿童先上救生艇。所以这也是个很重要的特征。* Age:乘客年龄,儿童会优先上救生艇,身强力壮者幸存概率也会高一些。
  • SibSp:兄弟姐妹同在船上的数量。
  • Parch:同船的父辈人员数量。
  • Ticket:乘客票号,丢弃这个特征。
  • Fare:乘客的体热指标。
  • Cabin:乘客所在的船舱号,实际上这个特征和幸存与否有一定的关系,比如最早被水淹没的船舱位置,其乘客的幸存概率要低一些。但由于这个特征有大量的丢失数据,而且没有更多的数据来对船舱进行归类,因此我们丢弃这个特征的数据。
  • Embarked:乘客登船的港口,我们需要把港口数据转换为数值型数据。

数据探索

导入必要的库

 
 

你可能感兴趣的:(数据挖掘,机器学习,python,数据挖掘,机器学习,大数据)