kaggle入门-Titanic浅析

Kaggle是为国外开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台;

当然在国内也有阿里的天池平台,也是不错的选择;

有需要练习机器学习的新手可以去这两个平台找数据下载,去练习机器学习和数据分析,本次分享的项目是kaggle入门级,经典的泰坦尼克号人员生还预测问题;相关数据请去kaggle里面自行下载,链接:https://www.kaggle.com,以下开始个人一些分析,由于不怎么会使用CSDN编辑基本都是截图的图片;

对于数据分析,整个流程,我认为有以下四个大的步骤:

  1. 获取数据:爬虫,企业网站内部等;
  2. 数据分析:分析整个数据的组成,数据特征之间的关系,各个特征与目标特征之间的关系等;
  3. 数据预处理:如找到缺失值和异常值,进行补充,特征工程等;
  4. 机器学习模型:模型选择,参数调优等;

1.导入基本分析库

python 数据分析必要的库,numpy,pandas,matplotlib,以及seaborn。
kaggle入门-Titanic浅析_第1张图片

2.导入数据,分析数据结构

kaggle入门-Titanic浅析_第2张图片
kaggle入门-Titanic浅析_第3张图片
kaggle入门-Titanic浅析_第4张图片

3.特征信息

特征信息主要是分析特征的组成,简单的了解哪些特征重要,哪些特征无关紧要。如PassengerId这个特征对于此项目无关紧要。
kaggle入门-Titanic浅析_第5张图片

4.数据分析

这里只是简单对特征数据与目标特征数据之间,简单分析它们之间的一个影响关系;
kaggle入门-Titanic浅析_第6张图片
kaggle入门-Titanic浅析_第7张图片
kaggle入门-Titanic浅析_第8张图片
kaggle入门-Titanic浅析_第9张图片
kaggle入门-Titanic浅析_第10张图片
kaggle入门-Titanic浅析_第11张图片
kaggle入门-Titanic浅析_第12张图片

5.数据预处理

kaggle入门-Titanic浅析_第13张图片
kaggle入门-Titanic浅析_第14张图片
kaggle入门-Titanic浅析_第15张图片
kaggle入门-Titanic浅析_第16张图片

6.处理预测数据

还是先观察,再进行操作:
kaggle入门-Titanic浅析_第17张图片
kaggle入门-Titanic浅析_第18张图片
kaggle入门-Titanic浅析_第19张图片
kaggle入门-Titanic浅析_第20张图片
kaggle入门-Titanic浅析_第21张图片

7.数据分离

kaggle入门-Titanic浅析_第22张图片

8.导入机器学习模型

kaggle入门-Titanic浅析_第23张图片
kaggle入门-Titanic浅析_第24张图片
kaggle入门-Titanic浅析_第25张图片

你可能感兴趣的:(数据分析)