kaggle数据挖掘竞赛初步--Titanic<原始数据分析&缺失值处理>

Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦。

这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存。这是个二元分类的机器学习问题,但是由于数据样本相对较少,在当时慌乱的情况下幸存者有一定的随机性,还是有一定挑战的。https://www.kaggle.com/c/titanic-gettingStarted/ 

一 载入数据

首先,我们要先看一看数据,分析数据的一些较为直观的特征。代码使用numpy pandas和scikit-learn。

1 import numpy as np

2 import pandas as pd

3 #read data from train.csv

4 df = pd.read_csv('train.csv',header=0)

5 df.info()

 read_csv函数读入csv文件返回一个DataFrame对象,每一列都依据读入的数据确定其类型,int64 object诸如此类。df.info()显示原始数据属性的基本信息,df.describe()则显示属性的一些统计信息,比如均值 方差等。

             

ps:Pclass属性代表船舱等级,1-一等舱,2-二等舱,3-三等舱,从一定程度上反应了这个乘客经济情况和社会地位。

从基本的数据信息可以看到,Age Carbin Emarked属性有缺失值,需要后续处理;有5个属性是字符串类型的,而sklearn只能处理数字类型的数据,如果不用这些属性显然会丢掉一些可能有价值的信息,所以需要用一定的方法将这些值转为数据。从统计数据中可以看出,有38.3%的幸存率。一般来讲,女性 孩子和高社会阶层的人更有可能幸存下来,可以用代码分析一下这个假设成不成立。

对于女性幸存率:

1 x=[df[(df.Sex=='male')]['Sex'].size,df[(df.Sex=='female')]['Sex'].size]

2 y=[df[(df.Sex=='male') & (df.Survived == 1)]['Sex'].size,\

3    df[(df.Sex=='female') & (df.Survived == 1)]['Sex'].size]

4 print 'male number:'+str(x[0])+'    '+'female number:'+str(x[1])

5 print 'male survive:'+str(y[0])+'    '+'female survive:'+str(y[1])

可以看出75%的女性幸存。

对于Age和Pclass分析也得到相近的结果。

二 缺失值处理

一些机器学习算法能够处理缺失值,比如神经网络,一些则不能。对于缺失值,一般有以下几种处理方法:

(1)如果数据集很多,但有很少的缺失值,可以删掉带缺失值的行

(2)如果该属性相对学习来说不是很重要,可以对缺失值赋均值或者众数。比如在哪儿上船Embarked这一属性(共有三个上船地点),缺失俩值,可以用众数赋值

1 #replace missing values with mode

2 df.Embarked[df.Embarked.isnull()] = df.Embarked.dropna().mode().values

(3)对于标称属性,可以赋一个代表缺失的值,比如‘U0’。因为缺失本身也可能代表着一些隐含信息。比如船舱号Cabin这一属性,缺失可能代表并没有船舱。

1 #replace missing value with U0

2 df.Cabin[df.Cabin.isnull()]='U0'

(4)使用回归 随机森林等模型来预测缺失属性的值。因为年龄在该数据集里是一个相当重要的特征,所以保证一定的缺失值填充准确率是非常重要的,对结果也会产生较大影响。一般情况下,会使用数据完整的条目作为模型的训练集,以此来预测缺失值。对于当前的这个数据,可以使用随机森林来预测也可以使用线性回归预测。我使用的是随机森林预测模型,选取当期数据集中的数值属性作为特征(因为sklearn的模型只能处理数值属性阿,当然后面会把其他属性都处理成数值属性,然后就可以更新这块预测年龄的代码啦)。

 1     #choose training data to predict age

 2     age_df = df[['Age','Survived','Fare', 'Parch', 'SibSp', 'Pclass']]

 3     age_df_notnull = age_df.loc[(df.Age.notnull())]

 4     age_df_isnull = age_df.loc[(df.Age.isnull())]

 5     X = age_df_notnull.values[:,1:]

 6     Y = age_df_notnull.values[:,0]

 7     #use RandomForestRegressor to train data

 8     rfr = RandomForestRegressor(n_estimators=1000,n_jobs=-1)

 9     rfr.fit(X,Y)

10     predictAges = rfr.predict(age_df_isnull.values[:,1:])

11     df.loc[(df.Age.isnull()),'Age'] = predictAges

 

完整代码: https://github.com/cindycindyhi/kaggle-Titanic

特征工程系列:

Titanic系列之原始数据分析和数据处理

Titanic系列之数据变换

Titanic系列之派生属性&维归约

你可能感兴趣的:(数据挖掘)