泰坦尼克号生存预测

泰坦尼克号生存预测分析


(一)提出问题

什么样的人在泰坦尼克号中更容易存活?

(二)理解数据

1.导入数据,为了方便同时对训练数据和测试数据进行清洗,需要将两个数据集合并


2.查看数据集信息

数据集由12个字段构成,12个字段的含义如图:


数据总共有1309行,Survived是标签,用作机器学习预测,无需处理。数据类型列:年龄(Age)、船舱号(Cabin)里面有缺失数据:

(1)年龄(Age)里面数据总数是1046条,缺失了263,缺失率20%;

(2)船票价格(Fare)里面数据总数是1308条,缺失了1条数据字符串列;

(3)登船港口(Embarked)里面数据总数是1307,只缺失了2条数据,缺失较少;

(4)船舱号(Cabin)里面数据总数是295,缺失了1014,缺失率77.5%,缺失较大;

(三)数据清洗

3.1缺失数据填充

登船港口缺失2个值,将其填充为出现次数最多的值,船舱号(Cabin)缺失值较多,将其填充为’U’

3.2特征提取

3.2.1数据分类

对于不同数据类型的特征提取方法不同,对于数值类型的数据可直接使用,对于日期数据需转换为单独的年、月、日,对于分类数据使用One-hot编码方法用数字代替类别

3.2.2数值类型

乘客编号(PassengerId),年龄(Age),船票价格(Fare),同代直系亲属人数(SibSp),不同代直系亲属人数(Parch)

3.2.3分类数据

(1).有直接类别的

乘客性别(Sex):男性male,女性female。将性别的值映射为数值,男(male)对应数值1,女(female)对应数值0


登船港口(Embarked):出发地点S=英国南安普顿Southampton,途径地点1:C=法国 瑟堡市Cherbourg,出发地点2:Q=爱尔兰 昆士敦Queenstown


客舱等级(Pclass):1=1等舱,2=2等舱,3=3等舱

(2)字符串类型

乘客姓名(Name)在乘客名字中,有一个非常显著的特点:乘客头衔每个名字当中都包含了具体的称谓或者说是头衔,将这部分信息提取出来后可以作为非常有用一个新变量,可以帮助我们进行预测


客舱号首字母是客舱的类别


建立家庭人数和家庭类别

3.3特征选择

相关性矩阵

特征选择

(四)构建模型并进行准确性评估

随机森林模型预测,平均准确率为0.79

逻辑回归模型,平均准确率为0.82

(五)得到预测结果

你可能感兴趣的:(泰坦尼克号生存预测)