泰坦尼克号数据集_Kaggle | 泰坦尼克号幸存分析(字段介绍)

泰坦尼克号数据集_Kaggle | 泰坦尼克号幸存分析(字段介绍)_第1张图片

写在前面:

  • 为了方便在书写的过程中对照字段,因此将【字段说明】和【建模】两部分分开;
  • 想要了解比较深入字段背后现实意义,进行特征工程可以跳转 Kaggle | 泰坦尼克号幸存分析(二);
  • 这里只会涉及字段的说明和介绍部分;
  • 以上。

1 数据理解

1.1 数据集

本次使用的数据集来自Kaggle,Titanic:Machine Learning from Disaster。

泰坦尼克是一个很不错的新手入坑和上手的数据集,数据集包含两部分——训练集(891条信息)和测试集(418条信息)。他们都记录着登上泰坦尼克号中乘客的个人信息,包含姓名、年龄等等,后面会详细介绍每一个维度的具体含义及分布情况。在训练集中还记录着那些乘客最终是否从泰坦尼克号的灾难中幸免,而测试集中是否幸存这一列则等待我们探寻。

我们的任务就是需要运用代码从训练数据集中学习到乘客最终能否幸存的规律,并且将之应用于测试数据集上:

那我们来看下每个字段的具体含义吧——

1.2 字段说明

df4d36601e4ac9b82dba478264f09ae0.png
随机抽取的一条乘客信息
  1. PassengerId 用户编号

记录乘客的Id编号。经过了解后:

  1. 并没有查到其构成具有特别的实际意义(如身份证的构成每一位都是有实际意义的);
  2. 仅作为唯一标识来定位到某一乘客身上(唯一值同总数据量一样);

因此认为不具有分析的价值,过后也会将它进行删除处理。

  1. Survived 是否存活(label)

描述乘客是否存活。

  • 0 - 用户未能存活;
  • 1- 用户存活;
  1. Pclass(用户阶级)

描述用户所属的等级,总共分为三等,用1、2、3来描述,其中:

  • 1 - 1st class,高等用户;
  • 2 - 2nd class,中等用户;
  • 3 - 3rd class,低等用户;
  1. Name(名字)

描述乘客的全名。例如上例中的 Rugg, Miss. Emily 中:

  • Rugg :first name,即名;
  • Miss. :title,即称谓;
  • Emily :last name,即姓

在登记乘客姓名时全都是用这种方法进行记录的;

  1. Sex(性别)

描述乘客的性别,其中:

  • male - 男性;
  • female - 女性;
  1. Age(年龄)

描述乘客的年龄,其中有部分缺失值,需要用一些手段将她们补全,具体的方法方在下面数据清洗中;

  1. SibSpParch
  • SibSp:描述了泰坦尼克号上与乘客同行的兄弟姐妹(Siblings)和配偶(Spouse)数目;
  • Parch:描述了泰坦尼克号上与乘客同行的家长(Parents)和孩子(Children)数目;
  1. Ticket(船票号)

描述乘客登船所使用的船票编号。虽然它没有编码上的规律,不存在缺失值,但是唯一值可以看到,同之前唯一定位的乘客编号不同,也就是说可能会有人重复使用船票的情况,具体处理会在数据清洗中介绍,我会找到资料支撑和这一想法;

  1. Fare(乘客费用)

描述乘客上传所花费的费用;

  1. Cabin(船舱)

描述用户所住的船舱编号。由两部分组成,仓位号和房间编号,如C88中,C和88分别对应C仓位和88号房间。本字段缺失值较多,具体处理方法会在后面的数据清洗部分进行介绍。

  1. Embarked(港口)

描述乘客上船时的港口,包含三种类型:

  • C:Cherbourg;
  • Q:Queenstown;
  • S:Southampton;

你可能感兴趣的:(泰坦尼克号数据集)