机器学习经典案例——泰坦尼克号

机器学习经典案例——泰坦尼克号
前言:泰坦尼克号数据分析是机器学习的一个经典案例,进行这个案例的学习,大家可以先在(https://www.kaggle.com/)对数据进行下载。网站需要账号登陆后下载,账号用Google、邮箱、脸书等。
然后是这几个数据集机器学习经典案例——泰坦尼克号_第1张图片
为了方便进行数据展示,使用Jupyter Notebook
先将要用到的数据上传到Jupyter Notebook机器学习经典案例——泰坦尼克号_第2张图片
然后新建一个python3.0的环境,就可以开始我们的案例了。

先让我们来了解一下大概流程:
1:导入所需的库和其他工具
2:获取数据
3:对数据进行处理
4:对数据进行数据划分
5:提取数据进行决策
6:模型分析

1:导入所需的库和其他工具

机器学习经典案例——泰坦尼克号_第3张图片
:numpy是Python的一种开源的数值计算扩展。可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
:pandas 是基于numpy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
:sklearn是python提供的免费机器学习框架,包含了很多的工具和算法。

  1. sklearn.tree:决策树,是进行计算的主要部分。
  2. sklearn.model_selection 中的 train_test_split用于划分训练集和测试集。
  3. sklearn.feature_extraction 中的 DictVectorizer用于进行文字特征抽取。

2:获取数据

在这里插入图片描述
还可以用head()的形式对数据进行部分展示,如下:
机器学习经典案例——泰坦尼克号_第4张图片

3:对数据进行处理

对于这次实例,我们研究的是数据的特征与其是否获救的关系,所以为了提高模型的准确性,我们要对特征进行分析。
passenger_id(乘客编号):表示每一个乘客。
p_class(乘客是几等舱):按电影中,是好舱先走的,对存活有影响。
name(乘客名字):完全无关。
sex(乘客性别):有可能对女性有一些倾向,选择保留。
age(乘客年龄):有可能对老幼有些列外的情况,选择保留。
SibSp(乘客的兄弟姐妹):有可能因为家人不能一起而拒绝登上救生艇,选择保留。
Parch(乘客的父母孩子):同上,选择保留。
Fare(购票所用的费用):费用和几等舱是相对应的,两者只能保留其中一个。
Cabin(船舱号):基本没影响。
Embarked(目的地):目的地也可以展示一个人可能的地位,选择保留。

然后就可以开始处理了
①把训练集和测试集整合到一起:机器学习经典案例——泰坦尼克号_第5张图片

②删掉不需要的数据,以免影响结果:
在这里插入图片描述
用describe()查看union数集:机器学习经典案例——泰坦尼克号_第6张图片
③解决数据中的空缺:机器学习经典案例——泰坦尼克号_第7张图片

4:对数据进行划分

机器学习经典案例——泰坦尼克号_第8张图片

5:提取数据进行决策

机器学习经典案例——泰坦尼克号_第9张图片

6:模型分析

一个个对照:预测成功输出1
机器学习经典案例——泰坦尼克号_第10张图片

你可能感兴趣的:(python,机器学习)