使用sklearn机器学习方法预测泰坦尼克号生存率

        数据分析一般有以下步骤:

        1、了解项目基本情况、提出问题;2、理解数据;3、数据清洗、准备;4、建模、训练; 5、模型的评估、预测;6、按项目要求收集结果数据;

下面我们就对泰坦尼克号沉船事件逐步进行分析。

一、了解项目基本情况、提出问题。

       泰坦尼克号沉船事件是世界上一次著名的海难,电影《泰坦尼克号》的成功也让这次事件得到了更广泛的传播,其具体经过不再赘述。在这里我们想做的事情是通过对泰坦尼克号沉船事件基础数据的整理和分析,通过机器学习的方法,是否能发现哪些因素影响生还率并通过模型对生还与否进行预测。

       我们先从kaggle官网下载相关数据。


查看对数据的解释。

使用sklearn机器学习方法预测泰坦尼克号生存率_第1张图片

可以看出对于我们需要预测的指标survival只有两个选项0和1,是一个二分类问题,本文使用逻辑回归模型来进行分类预测。

二、理解数据

首先导入前面已经下载的数据test.csv和train.csv,这里注意文件路径有中文需要使用open函数转换导入.

使用sklearn机器学习方法预测泰坦尼克号生存率_第2张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第3张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第4张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第5张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第6张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第7张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第8张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第9张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第10张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第11张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第12张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第13张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第14张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第15张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第16张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第17张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第18张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第19张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第20张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第21张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第22张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第23张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第24张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第25张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第26张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第27张图片

使用sklearn机器学习方法预测泰坦尼克号生存率_第28张图片

结果展示

使用sklearn机器学习方法预测泰坦尼克号生存率_第29张图片

总结

  • 拿到项目一定先要了解清楚项目背景,理清思路
  • 构建分析和建模的框架
  • 多使用info/head/describe函数查看数据处理情况,以便发现问题及时改正
  • 对于某些项目、数据需要构建不同的模型、算法来训练和测试,通过不断优化来选择最合适的一个


你可能感兴趣的:(机器学习)