泰坦尼克号数据的分析研究

作为大家都非常熟悉的沉船事故–泰坦尼克号事件,该事件数据集同样也广受大家所关注,许多人拿数据集来分析研究,找出影响乘客幸存率的因素有哪些。

本文的目的是希望自己通过分析研究,去找出那些影响幸存率的因素,同时在过程中学习,强化自己。

一、前言

数据来源自kaggle数据集,该数据一共有12个字段,各项字段意义如下表:
泰坦尼克号数据的分析研究_第1张图片
对各字段进行意义性理解分析,找出影响幸存率的因素如下图
泰坦尼克号数据的分析研究_第2张图片

二、数据处理

打开数据源,对数据进行处理,发现cabin、age、Fare、embarked有缺失值。

1、cabin字段

该字段数据属于文本型字段,具体意义是指客舱号。
泰坦尼克号数据的分析研究_第3张图片
数据筛选,1309条记录中只有295条数据,缺失过于严重,故数据不再进行分析研究。

2、age字段

该字段是数字型字段,其数据意义是分析年龄对存活率的影响。
泰坦尼克号数据的分析研究_第4张图片
在1309条数据中只有1046条数据,缺失 263条数据。为了保持数据的真实性,所以不在对数据进行填充。
对数据进行整理,age应该为整数,故小于1的记为1岁,其他数据采用4舍5入,空值不改变。

3、Fare字段

该字段属于数字型数据,其意义是研究船票价格对存活的影响。数据筛选如下
泰坦尼克号数据的分析研究_第5张图片
该数据只有一个空值,我们可以按照该人员的详细数据去得出此人的Fare值。依据pclas=3,embarked=s,age在60岁周边,得出Fare的平均值为7,填入该数据。

4、Embarked字段

该字段属于文本型字段,其研究意义是分析登船港口对存活率的影响
泰坦尼克号数据的分析研究_第6张图片
本字段数据筛选后有2个空值。按照之前的逻辑,对其填入文本S

三、数据分析

1、舱位维度

建立舱位和存活情况的数据透视表

泰坦尼克号数据的分析研究_第7张图片
数据源中总体人数为1309人,存活494,占比38%,死亡率高达62%,从数据层面来说,这是一起非常严重的沉船事故。

做关于各舱位存活率的柱状图

泰坦尼克号数据的分析研究_第8张图片
在Pclass字段中,1代表一等,2代表二等,3代表三等。
一等舱的幸存率最高,为58%;三等舱最低,为27%,该数据还不到一等舱位幸存率的一半;所以,科能还是需要有钱……

2、性别

性别

建立性别和存活状况的数据透视表。

泰坦尼克号数据的分析研究_第9张图片
在总乘客人员中,女性占比64%,男性占比36%。
泰坦尼克号数据的分析研究_第10张图片
生还人员中,女性占比78%,男性占比22%,还不到女性占比的三分之一。
泰坦尼克号数据的分析研究_第11张图片
女性生还人数占女性总人数的83%,男性生还人数占男性总人数的13%,该数据为观点“事故发生时,优先解救女性”提供了依据。
泰坦尼克号数据的分析研究_第12张图片
性别&客舱

建立客舱、性别、存活状况的数据透视表。

泰坦尼克号数据的分析研究_第13张图片
对各舱位的男女性幸存、死亡率做百分比堆积柱形图。无论在哪个舱位,女性幸存人数比例都远远大于男性生还比例。
拆分到舱位上,一等舱女性幸存比例最高,为98%,三等舱最低,为67%;
泰坦尼克号数据的分析研究_第14张图片
男女乘客中,男性幸存的比例仅为13%,远低于女性幸存比例;拆分到舱位上,一等舱男性幸存比例最高,三等舱最低。进而推论可能在男性解救过程中,或许存在因地位、财富等原因。
泰坦尼克号数据的分析研究_第15张图片

3、年龄

因为年龄缺失值较多,为了数据的真实性,没有对数据进行整理。

对数据进行描述性检验。 

泰坦尼克号数据的分析研究_第16张图片
年龄的平均值为30岁,最大值为80,最小值为1岁,众数为24岁,中位数为28岁。
对年龄进行分段划分, 我们规定0-15岁为青少年,15-40为青年,40-60为中年,60以上为老年。
泰坦尼克号数据的分析研究_第17张图片
本数据源age字段数据不缺失的人员中,青年占主要人群,占比66%。老年占比最少,为4%

建立年龄段划分、性别和存活状况的数据透视表:

泰坦尼克号数据的分析研究_第18张图片
泰坦尼克号数据的分析研究_第19张图片
所有年龄段划分中,青少年幸存人数占青少年总人数的比例最高,为52%;青年、中年、老年依次减少,最小值为35%;
另外,有一个有趣的数字,对于老年女性乘客有11人,这11人全部获救。(这就是绅士精神?)
泰坦尼克号数据的分析研究_第20张图片
幸存人员中,青年占比最大,为65%;老年占比最小,为3%;

4、船票价格

理论来说,舱位登记越高,其价格越贵,验证此结论。对舱位登记和价格做相关性分析。
泰坦尼克号数据的分析研究_第21张图片
舱位和船票价格成负相关,该情况表示舱位越高,价格越贵,符合现实依据。

  建立价格和存活状况的数据透视表,因价格区间差别过大,所以对价格进行区间划分,我们以50为组距。

泰坦尼克号数据的分析研究_第22张图片
数据显示,虽然在0-50的价格区间内幸存人数最多,但该区间的幸存比例最低,数值仅为32%,其数值仅为其他价位存活率的一半左右。
另外,在500-550的价格区间的人们有4人,该4人全部获救。(金钱的力量?)

5、亲属

Sibsp字段

对字段sibsp建立数据透视表,该字段是表示乘客的同系兄弟姐妹或配偶数。

泰坦尼克号数据的分析研究_第23张图片
该图表说明,在乘客中,有1个同系的兄弟姐妹或配偶的获救比例最高,数值为52%

Parch字段

对字段parch建立数据透视表,该字段是表示船上的父母或子女数。

泰坦尼克号数据的分析研究_第24张图片
该图表显示说明,父母或者子女相加人数为3的人员获救比例最大,达到了63%

数据中parch为9的有2人,一男、一女,女士幸存了下来,观察此两条数据,其共同点较多,推测可能为夫妻,也许这就是爱情吧~
在这里插入图片描述

6、登船港口

对Embarked字段建立数据透视表,

泰坦尼克号数据的分析研究_第25张图片
C所代表港口人员获救比例最高,达到了50%;在获救人数中,S所代表港口获救比例最大,达到了62%;

结论

1、幸存率与舱位有关,舱位越高,存活率越高;
2、幸存率与性别有关,女性幸存率(83%)远远高于男性(13%),尽管船上乘客以男性为主;另外,不同舱位的女性之间,舱位越高,生还比例越大,男性同样如此;
3、尽管船上多以青年为主,但青少年的实际存活比例确为最高(52%);再有对于老年女性乘客,存活比例为100%;
4、不同的船票价格确实会影响存活率,船票的价格越低(0-50)其存活率越低(32%),价格越高,存活率越高(100%)
5、在乘客中,有1个兄弟姐妹或配偶的幸存率最高(52%),再有父母或子女相加人数为3的乘客幸存率最大(63%);
6、对于登船港口,S代表的港口即英国南安普顿登船人数最多;但在C港即法国卢森堡登船的人员幸存比例最高(50%)

你可能感兴趣的:(数据分析)