Kaggle数据挖掘竞赛入门系列：（三）Titanic竞赛初试身手

本篇文章针对刚刚接触Kaggle的同学，介绍参加Kaggle数据分析竞赛的完整流程，最快速度完成一个比赛。

前言

Kaggle是一个数据分析的竞赛平台。企业可以将数据、问题描述和期望指标发布到Kaggle平台，以竞赛的形式向广大的数据科学家征集解决方案。参赛者将数据下载下来，分析数据、建立模型、解决问题，最后提交解决问题的结果。

进入Kaggle网站：

Kaggle网站首页

Kaggle中的比赛主要分为三类：Featured、Research和Getting Started。进入Kaggle网站的Competition栏目后，我们可以看到目前正在举行的竞赛。我们选择Titanic幸存者预测这个竞赛，教大家一步一步完成比赛。

Kaggle竞赛类型

Kaggle竞赛项目的全过程：

了解问题背景：对竞赛的背景进行了解
下载数据
分析数据：Explore Data Analysis
数据处理和特征工程：Data Process and FeatureEngineering
模型选择：Model Select
提交结果：Submission

第一步：了解问题背景

著名的泰坦尼克号

没错，Titanic就是那部著名的电影：“泰坦尼克号”。我们需要预测泰坦尼克号沉没的时候哪些乘客成为了幸存者。

Titanic竞赛问题描述

第二步：下载数据

下载数据

有三个数据csv文件需要我们下载。

gender_submission.csv：我们需要提交的示例文件

test.csv：测试数据集

train.csv：训练数据集

第三步：读取数据，分析数据

读取数据

Pandas是目前最强大的数据分析包，没有之一。可以用.info()函数查看当前dataframe的信息。

训练数据信息

训练数据集有891行12列。各列代表的信息：
· PassengerId：一个用以标记每个乘客的数字id
· Survived：标记乘客是否幸存——幸存(1)、死亡(0)。我们将预测这一列。
· Pclass：标记乘客所属船层——第一层(1),第二层(2),第三层(3)。
· Name：乘客名字。
· Sex：乘客性别——男male、女female
· Age：乘客年龄。部分。
· SibSp：船上兄弟姐妹和配偶的数量。
· Parch：船上父母和孩子的数量。
· Ticket：乘客的船票号码。
· Fare：乘客为船票付了多少钱。
· Cabin：乘客住在哪个船舱。
· Embarked：乘客从哪个地方登上泰坦尼克号。