泰坦尼克获救-再探数据挖掘(思路+源码+结果)

写在前面:

很就之前刚入门的时候写过关于kaggle比赛的泰坦尼克号获救预测,作为很多机器学习爱好者入门的一个经典项目,时隔半年再看,有了一些不一样的感悟,分享给大家,对自己也是一个激励学习的过程记录。
欢迎大家一起探讨。
(本文适用于有一定基础的朋友,我会尽量减少语言描述,最大可能的写注释)
Ps:作者能力有限,文章仅供学习参考,欢迎交流。

1:思路

如果说之前是个菜鸡,现在就是一个强一点的菜鸡,针对泰坦尼克号这个项目,我们需要从特性中抽取共性,找出数据挖掘项目的通用思路.
个人总结如下:

数据挖掘流程:

  1. 数据读取
    a. 读取数据,并进行展示
    b. 统计数据各项指标
    c. 明确数据规模与要完成任务
  2. 特征理解分析
    a. 单特征分析,逐个变量分析其对结果的影响
    b. 多变量统计分析,综合考虑多种情况影响
    c. 统计绘图得出结论
  3. 数据清洗与预处理
    a. 对缺失值进行填充
    b. 特征标准化/归一化
    c .筛选有价值的特征
    d. 分析特征之间的相关性
  4. 建立模型
    a. 特征数据与标签准备
    b. 数据集切分
    c. 多种建模算法对比
    d. 集成策略等方案改进

2 数据的读取与统计分析

import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('fivethirtyeight')
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
data=pd.read_csv(r'/Titanic/train.csv')
data.head()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第1张图片

#查看是否有缺失值
data.isnull().sum() #checking for total null values

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第2张图片

#查看数据规模
data.describe()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第3张图片

#查看获救比例
f,ax=plt.subplots(1,2,figsize=(18,8))
data['Survived'].value_counts().plot.pie(explode=[0,0.1],autopct='%1.1f%%',ax=ax[0],shadow=True)
ax[0].set_title('Survived')
ax[0].set_ylabel('')
sns.countplot('Survived',data=data,ax=ax[1])
ax[1].set_title('Survived')
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第4张图片
在训练集的891名乘客中,只有大约350人幸存下来,只有38.4%

使用数据集的不同特性来检查生存率。比如性别,年龄,登船地点等,
首先我们得来理解下数据中的特征!

数据特征分为:连续值和离散值
离散值:性别(男,女) 登船地点(S,Q,C)
连续值:年龄,船票价格

data.groupby(['Sex','Survived'])['Survived'].count()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第5张图片

f,ax=plt.subplots(1,2,figsize=(18,8))
data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar(ax=ax[0])
ax[0].set_title('Survived vs Sex')
sns.countplot('Sex',hue='Survived',data=data,ax=ax[1])
ax[1].set_title('Sex:Survived vs Dead')
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第6张图片
生存率为一个女人在船上是75%左右,而男性在18-19%左右。
Pclass --> 船舱等级跟获救情况的关系

pd.crosstab(data.Pclass,data.Survived,margins=True).style.background_gradient(cmap='summer_r')

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第7张图片

f,ax=plt.subplots(1,2,figsize=(18,8))
data['Pclass'].value_counts().plot.bar(color=['#CD7F32','#FFDF00','#D3D3D3'],ax=ax[0])
ax[0].set_title('Number Of Passengers By Pclass')
ax[0].set_ylabel('Count')
sns.countplot('Pclass',hue='Survived',data=data,ax=ax[1])
ax[1].set_title('Pclass:Survived vs Dead')
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第8张图片
pClass1来说存活是63%左右,而pclass2大约是48%.
有钱真的了不起。。

船舱等级和性别

pd.crosstab([data.Sex,data.Survived],data.Pclass,margins=True).style.background_gradient(cmap='summer_r')

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第9张图片

sns.factorplot('Pclass','Survived',hue='Sex',data=data)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第10张图片

用factorplot看起来更直观一些。

很容易地推断,从pclass1女性生存是95-96%,如94人中只有3的女性从pclass1没获救。

显而易见的是,不论pClass,女性优先考虑。

所以Pclass也是一个重要的特征
看看年龄

print('Oldest Passenger was of:',data['Age'].max(),'Years')
print('Youngest Passenger was of:',data['Age'].min(),'Years')
print('Average Age on the ship:',data['Age'].mean(),'Years')

在这里插入图片描述

f,ax=plt.subplots(1,2,figsize=(18,8))
sns.violinplot("Pclass","Age", hue="Survived", data=data,split=True,ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0,110,10))
sns.violinplot("Sex","Age", hue="Survived", data=data,split=True,ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0,110,10))
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第11张图片
结果:
1)10岁以下儿童的存活率随passenegers数量增加。

2)生存为20-50岁获救几率更高一些。

3)对男性来说,随着年龄的增长,存活率降低。

缺失值填充

  • 平均值
  • 经验值
  • 回归模型预测
  • 剔除掉

年龄特征有177个空值。为了替换这些缺失值,使用平均值来替换

但是男女的不一样,用称呼来划分。简单来说,就是找出女的年龄的平均值,找出男的年龄平均值

data['Initial']=0
for i in data:
    data['Initial']=data.Name.str.extract('([A-Za-z]+)\.') 
pd.crosstab(data.Initial,data.Sex).T.style.background_gradient(cmap='summer_r') 

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第12张图片

data['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr'],inplace=True)
data.groupby('Initial')['Age'].mean() #lets check the average age by Initials

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第13张图片

## 使用每组的均值来进行填充
data.loc[(data.Age.isnull())&(data.Initial=='Mr'),'Age']=33
data.loc[(data.Age.isnull())&(data.Initial=='Mrs'),'Age']=36
data.loc[(data.Age.isnull())&(data.Initial=='Master'),'Age']=5
data.loc[(data.Age.isnull())&(data.Initial=='Miss'),'Age']=22
data.loc[(data.Age.isnull())&(data.Initial=='Other'),'Age']=46
data.Age.isnull().any() #看看填充完了咋样
f,ax=plt.subplots(1,2,figsize=(20,10))
data[data['Survived']==0].Age.plot.hist(ax=ax[0],bins=20,edgecolor='black',color='red')
ax[0].set_title('Survived= 0')
x1=list(range(0,85,5))
ax[0].set_xticks(x1)
data[data['Survived']==1].Age.plot.hist(ax=ax[1],color='green',bins=20,edgecolor='black')
ax[1].set_title('Survived= 1')
x2=list(range(0,85,5))
ax[1].set_xticks(x2)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第14张图片
结论:
1)年龄在5岁以获救,妇女和儿童优先政策。
2)最老的乘客得救了(80年)。
3)死亡人数最高的是30-40岁年龄组。

sns.factorplot('Pclass','Survived',col='Initial',data=data)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第15张图片
Embarked–> 登船地点

pd.crosstab([data.Embarked,data.Pclass],[data.Sex,data.Survived],margins=True).style.background_gradient(cmap='summer_r')

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第16张图片

sns.factorplot('Embarked','Survived',data=data)
fig=plt.gcf()
fig.set_size_inches(5,3)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第17张图片
C港生存的可能性最高在0.55左右,而S的生存率最低。

f,ax=plt.subplots(2,2,figsize=(20,15))
sns.countplot('Embarked',data=data,ax=ax[0,0])
ax[0,0].set_title('No. Of Passengers Boarded')
sns.countplot('Embarked',hue='Sex',data=data,ax=ax[0,1])
ax[0,1].set_title('Male-Female Split for Embarked')
sns.countplot('Embarked',hue='Survived',data=data,ax=ax[1,0])
ax[1,0].set_title('Embarked vs Survived')
sns.countplot('Embarked',hue='Pclass',data=data,ax=ax[1,1])
ax[1,1].set_title('Embarked vs Pclass')
plt.subplots_adjust(wspace=0.2,hspace=0.5)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第18张图片
泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第19张图片
观察:

1)大部分人的船舱等级是3。

2)C的乘客看起来很幸运,他们中的一部分幸存下来。

3)S港口的富人蛮多的。仍然生存的机会很低。

4)港口Q几乎有95%的乘客都是穷人。

sns.factorplot('Pclass','Survived',hue='Sex',col='Embarked',data=data)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第20张图片
结论:
1.Pclass1 和 Pclass2中的女人的存活率几乎为1
2.Pclass3的人,无论男女,生存率感人
3.港口Q的人出问题最多,因为这里都是3等舱
结论:有钱就是可以为所欲为。
由于港口也存在缺失值,在这里使用总数来填充,

data['Embarked'].fillna('S',inplace=True)
data.Embarked.isnull().any()

sibsip -->兄弟姐妹的数量

这个特征表示一个人是独自一人还是与他的家人在一起。

pd.crosstab([data.SibSp],data.Survived).style.background_gradient(cmap='summer_r')

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第21张图片

f,ax=plt.subplots(1,2,figsize=(20,8))
sns.barplot('SibSp','Survived',data=data,ax=ax[0])
ax[0].set_title('SibSp vs Survived')
sns.factorplot('SibSp','Survived',data=data,ax=ax[1])
ax[1].set_title('SibSp vs Survived')
plt.close(2)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第22张图片

pd.crosstab(data.SibSp,data.Pclass).style.background_gradient(cmap='summer_r')

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第23张图片
结论:有兄弟姐妹的存活率都不高。
这个与我们实际情况相符合。
(还有个更心塞,你看到了没5和8的存活率为0.。自己体会)
还有下一个: 研究父母和孩子的数量

pd.crosstab(data.Parch,data.Pclass).style.background_gradient(cmap='summer_r')

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第24张图片

f,ax=plt.subplots(1,2,figsize=(20,8))
sns.barplot('Parch','Survived',data=data,ax=ax[0])
ax[0].set_title('Parch vs Survived')
sns.factorplot('Parch','Survived',data=data,ax=ax[1])
ax[1].set_title('Parch vs Survived')
plt.close(2)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第25张图片
带着父母的乘客有更大的生存机会。但是,大家庭都在Pclass3

1-3个的人的生存几率最高。

Fare-船票的价格

print('Highest Fare was:',data['Fare'].max())
print('Lowest Fare was:',data['Fare'].min())
print('Average Fare was:',data['Fare'].mean())

在这里插入图片描述
泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第26张图片
简单的理一下:
性别:与男性相比,女性的生存机会很高。

Pclass:头等舱的生存率更高

年龄:小于5-10岁的儿童存活率高。年龄在15到35岁之间的乘客死亡很多。

港口:港口和Pclass相关性太高了

家庭:家庭人数也影响存活率

sns.heatmap(data.corr(),annot=True,cmap='RdYlGn',linewidths=0.2) #data.corr()-->correlation matrix
fig=plt.gcf()
fig.set_size_inches(10,8)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第27张图片

特征相关性的热度图

首先需要注意的是,只有数值特征进行比较
正相关: 如果特征A的增加导致特征b的增加,那么它们正相关。值1表示完全正相关。
负相关:如果特征A的增加导致特征b的减少,则呈负相关。值-1表示完全负相关。
如果两个特性是高度相关,或者完全相关,也就是一个的增加会导致另外一个增加。 这意味着两个特征都包含高度相似的信息,
用高中数学来表示,这两个特征A和B,且存在A=aB+b,此时,A和B这两个特征,我们只需要一个即可。
这也就是所谓的冗余特性,
现在,我们从上图可以看出。我们获取的特征,不显著相关。

特征工程和数据清洗

在了解了特征相关性的关系之后,我们需要通过观察,经验,或者从其他 特征中提取信息来获得或者添加新的特性。

年龄特征:

年龄是连续的特征。
这就存在一个问题,比如30个人,30个年龄,我们不可能分30组,
这个问题简单来说就是: 对连续值进行离散化分组!
以这个题目为例。
乘客最大的年龄是80岁,把0-80划分成为5组的话,80/5=16,也就是每16划分一组。

data['Age_band']=0
data.loc[data['Age']<=16,'Age_band']=0
data.loc[(data['Age']>16)&(data['Age']<=32),'Age_band']=1
data.loc[(data['Age']>32)&(data['Age']<=48),'Age_band']=2
data.loc[(data['Age']>48)&(data['Age']<=64),'Age_band']=3
data.loc[data['Age']>64,'Age_band']=4
data.head(2)

在这里插入图片描述

data['Age_band'].value_counts().to_frame().style.background_gradient(cmap='summer')
#查看每组的年龄大概有多少个

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第28张图片

sns.factorplot('Age_band','Survived',data=data,col='Pclass')
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第29张图片
从图当中可以看到,生存率随着年龄的增加而减少,这符合实际情况,

Family_size:家庭总人数

data['Family_Size']=0
data['Family_Size']=data['Parch']+data['SibSp']#family size
data['Alone']=0
data.loc[data.Family_Size==0,'Alone']=1#Alone

f,ax=plt.subplots(1,2,figsize=(18,6))
sns.factorplot('Family_Size','Survived',data=data,ax=ax[0])
ax[0].set_title('Family_Size vs Survived')
sns.factorplot('Alone','Survived',data=data,ax=ax[1])
ax[1].set_title('Alone vs Survived')
plt.close(2)
plt.close(3)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第30张图片

family_size = 0意味着passeneger是一个人。   
一个人和家庭4人以上,生存机会都很小。  
这是模型的一个重要特性。   

船票价格

船票的价格也是连续的特性,需要转化成为离散值
在这里使用了pandas.qcut

data['Fare_Range']=pd.qcut(data['Fare'],4).cat.codes

data.groupby(['Fare_Range'])['Survived'].mean().to_frame().style.background_gradient(cmap='summer_r')

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第31张图片
如上所述,我们可以清楚地看到,船票价格增加生存机会。

data['Fare_cat']=0
data.loc[data['Fare']<=7.91,'Fare_cat']=0
data.loc[(data['Fare']>7.91)&(data['Fare']<=14.454),'Fare_cat']=1
data.loc[(data['Fare']>14.454)&(data['Fare']<=31),'Fare_cat']=2
data.loc[(data['Fare']>31)&(data['Fare']<=513),'Fare_cat']=3
sns.factorplot('Fare_cat','Survived',data=data,hue='Sex')
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第32张图片

结论,随着fare_cat增加,存活的几率增加。
关于性别,比较好修改。0男1女
这个显示出来的是,:我们将字符串转化为数字。

data['Sex'].replace(['male','female'],[0,1],inplace=True)

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第33张图片
还有些不需要的特征值
name:不需要,不解释。
年龄:已经分组过了。
票号:任意字符串,无法归类
票价:使用fare_cat特征
船仓号/passengerid -->不能被归类

data.drop(['Name','Age','Ticket','Fare','Cabin','Fare_Range','PassengerId'],axis=1,inplace=True)
sns.heatmap(data.corr(),annot=True,cmap='RdYlGn',linewidths=0.2,annot_kws={'size':20})
fig=plt.gcf()
fig.set_size_inches(18,15)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第34张图片

机器学习建模

经典机器学习建模算法有:
1)logistic回归

2)支持向量机(线性和径向)

3)随机森林

4)k-近邻

5)朴素贝叶斯

6)决策树

7)神经网络

#importing all the required ML packages
from sklearn.linear_model import LogisticRegression #logistic regression
from sklearn import svm #support vector Machine
from sklearn.ensemble import RandomForestClassifier #Random Forest
from sklearn.neighbors import KNeighborsClassifier #KNN
from sklearn.naive_bayes import GaussianNB #Naive bayes
from sklearn.tree import DecisionTreeClassifier #Decision Tree
from sklearn.model_selection import train_test_split #training and testing data split
from sklearn import metrics #accuracy measure
from sklearn.metrics import confusion_matrix #for confusion matrix

data.head()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第35张图片

train,test=train_test_split(data,test_size=0.3,random_state=0,stratify=data['Survived'])
train_X=train[train.columns[1:]]
train_Y=train[train.columns[:1]]
test_X=test[test.columns[1:]]
test_Y=test[test.columns[:1]]
X=data[data.columns[1:]]
Y=data['Survived']
#支持向量机---核函数为rbf
model=svm.SVC(kernel='rbf',C=1,gamma=0.1)
model.fit(train_X,train_Y)
prediction1=model.predict(test_X)
print('Accuracy for rbf SVM is ',metrics.accuracy_score(prediction1,test_Y))

在这里插入图片描述

#支持向量机---核函数为linear
model=svm.SVC(kernel='linear',C=0.1,gamma=0.1)
model.fit(train_X,train_Y)
prediction2=model.predict(test_X)
print('Accuracy for linear SVM is',metrics.accuracy_score(prediction2,test_Y))

在这里插入图片描述

#逻辑回归
model = LogisticRegression()
model.fit(train_X,train_Y)
prediction3=model.predict(test_X)
print('The accuracy of the Logistic Regression is',metrics.accuracy_score(prediction3,test_Y))

在这里插入图片描述

#决策树--Decision Tree
model=DecisionTreeClassifier()
model.fit(train_X,train_Y)
prediction4=model.predict(test_X)
print('The accuracy of the Decision Tree is',metrics.accuracy_score(prediction4,test_Y))

在这里插入图片描述

#KNN-K-Nearest Neighbors
model=KNeighborsClassifier() 
model.fit(train_X,train_Y)
prediction5=model.predict(test_X)
print('The accuracy of the KNN is',metrics.accuracy_score(prediction5,test_Y))

在这里插入图片描述
现在的精度为KNN模型的变化,改变n_neighbours值属性看看效果。
默认值是5。
看看精度在n_neighbours不同时的结果。

a_index=list(range(1,11))
a=pd.Series()
x=[0,1,2,3,4,5,6,7,8,9,10]
for i in list(range(1,11)):
    model=KNeighborsClassifier(n_neighbors=i) 
    model.fit(train_X,train_Y)
    prediction=model.predict(test_X)
    a=a.append(pd.Series(metrics.accuracy_score(prediction,test_Y)))
plt.plot(a_index, a)
plt.xticks(x)
fig=plt.gcf()
fig.set_size_inches(12,6)
plt.show()
print('Accuracies for different values of n are:',a.values,'with the max value as ',a.values.max())

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第36张图片

#高斯
model=GaussianNB()
model.fit(train_X,train_Y)
prediction6=model.predict(test_X)
print('The accuracy of the NaiveBayes is',metrics.accuracy_score(prediction6,test_Y))

在这里插入图片描述

#随机森林
model=RandomForestClassifier(n_estimators=100)
model.fit(train_X,train_Y)
prediction7=model.predict(test_X)
print('The accuracy of the Random Forests is',metrics.accuracy_score(prediction7,test_Y))

在这里插入图片描述
这里我们获得的全是训练集上的,而在实际中,是在测试集上进行验证。精度的变化未知

交叉验证

交叉验证-多轮求均值

1)交叉验证的工作原理是首先将数据集分成k-subsets。

2)假设我们将数据集划分为(k=5)部分。我们预留1个部分进行测试,并对这4个部分进行训练。

3)我们通过在每次迭代中改变测试部分并在其他部分中训练算法来继续这个过程。然后对衡量结果求平均值,得到算法的平均精度。

这就是所谓的交叉验证。

from sklearn.model_selection import KFold #for K-fold cross validation
from sklearn.model_selection import cross_val_score #score evaluation
from sklearn.model_selection import cross_val_predict #prediction
kfold = KFold(n_splits=10, random_state=22) # k=10, split the data into 10 equal parts
xyz=[]
accuracy=[]
std=[]
classifiers=['Linear Svm','Radial Svm','Logistic Regression','KNN','Decision Tree','Naive Bayes','Random Forest']
models=[svm.SVC(kernel='linear'),svm.SVC(kernel='rbf'),LogisticRegression(),KNeighborsClassifier(n_neighbors=9),DecisionTreeClassifier(),GaussianNB(),RandomForestClassifier(n_estimators=100)]
for i in models:
    model = i
    cv_result = cross_val_score(model,X,Y, cv = kfold,scoring = "accuracy")
    cv_result=cv_result
    xyz.append(cv_result.mean())
    std.append(cv_result.std())
    accuracy.append(cv_result)
new_models_dataframe2=pd.DataFrame({'CV Mean':xyz,'Std':std},index=classifiers)       
new_models_dataframe2

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第37张图片

plt.subplots(figsize=(12,6))
box=pd.DataFrame(accuracy,index=[classifiers])
box.T.boxplot()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第38张图片

new_models_dataframe2['CV Mean'].plot.barh(width=0.8)
plt.title('Average CV Mean Accuracy')
fig=plt.gcf()
fig.set_size_inches(8,5)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第39张图片

混淆矩阵

它给出分类器的正确和不正确分类的数量。

f,ax=plt.subplots(3,3,figsize=(12,10))
y_pred = cross_val_predict(svm.SVC(kernel='rbf'),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,0],annot=True,fmt='2.0f')
ax[0,0].set_title('Matrix for rbf-SVM')
y_pred = cross_val_predict(svm.SVC(kernel='linear'),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,1],annot=True,fmt='2.0f')
ax[0,1].set_title('Matrix for Linear-SVM')
y_pred = cross_val_predict(KNeighborsClassifier(n_neighbors=9),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,2],annot=True,fmt='2.0f')
ax[0,2].set_title('Matrix for KNN')
y_pred = cross_val_predict(RandomForestClassifier(n_estimators=100),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,0],annot=True,fmt='2.0f')
ax[1,0].set_title('Matrix for Random-Forests')
y_pred = cross_val_predict(LogisticRegression(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,1],annot=True,fmt='2.0f')
ax[1,1].set_title('Matrix for Logistic Regression')
y_pred = cross_val_predict(DecisionTreeClassifier(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,2],annot=True,fmt='2.0f')
ax[1,2].set_title('Matrix for Decision Tree')
y_pred = cross_val_predict(GaussianNB(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[2,0],annot=True,fmt='2.0f')
ax[2,0].set_title('Matrix for Naive Bayes')
plt.subplots_adjust(hspace=0.2,wspace=0.2)
plt.show()

泰坦尼克获救-再探数据挖掘(思路+源码+结果)_第40张图片

解释混淆矩阵:来看第一个图

1)预测的正确率为491(死亡)+ 247(存活),平均CV准确率为(491+247)/ 891=82.8%。

2)58和95都是弄错了的数量。
这个图熟悉吗?还记得F1系数不,还记得查准率和查全率。。

你可能感兴趣的:(Kaggle,算法,机器学习)