数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)

更多原创文章请访问:
https://blog.csdn.net/xudailong_blog

如果没有看到上册的话:可以点击这里:

[数据挖掘实战系列] Kaggle之泰坦尼克号灾难(上)https://www.jianshu.com/p/fc5f33d4b84c

上主要是对数据进行一些处理,这里的下主要是对数据进行一些分析:

####(一)描述性分析

(1)单身存活率

d = train3[['isalone','Survived']].groupby(['isalone']).mean()
d
# d.loc[0,'Survived']

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第1张图片

看来秀恩爱死得早在这里并不适用啊。

(2.1) 单身与死亡率的直方图

# 6.2 单身与死亡率的直方图
plt.bar(
    [0,1],
    [1-d.loc[0,'Survived'],1-d.loc[1,'Survived']],
    0.5,
    color='r',
    alpha=1.0,
)

plt.xticks([0,1],['notalone','alone'])
plt.show()

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第2张图片

(3)男性女性存活率

n = train3[['Sex','Survived']].groupby(['Sex']).mean()
n

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第3张图片

# 6.3.1 不同性别死亡率条形图
plt.bar(
    [0,1],
    [1-n.loc[0,'Survived'],1-n.loc[1,'Survived']],
    0.5,
    color='g',
    alpha=0.9,
)
plt.xticks([0,1],['female','male'])
plt.show()

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第4张图片

男人不怕死??exm ,可能是妇女先走,男人断后!

(4)仓位存活率

# 6.4 仓位存活率
c = train3[['Pclass','Survived']].groupby(['Pclass']).mean()
c

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第5张图片

# 6.4.1 三个不同仓位死亡率条形图

plt.bar(
    [0,1,2],
    [1-c.loc[1,'Survived'],1-c.loc[2,'Survived'],1-c.loc[3,'Survived']],
    0.5,
    color='b',
    alpha=0.8,
)
plt.xticks([0,1,2],[1,2,3])
plt.show()

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第6张图片

有钱人哈,不知道该怎么表达此刻我怎样的心情 ,有钱人多多少少还是有方法活下来的,尽管不知道用的什么方法活下来的。

(5) 年龄存活率

# 6.4 年龄存活率
age = train3[['Age','Survived']].groupby(['Age']).mean()
age

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第7张图片

作图秀一下??
数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第8张图片
数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第9张图片

装X失败,呵呵。各位大佬能否扶我一下?

(6)票价存活率

# 6.5 票价存活率

fare = train3[['Fare','Survived']].groupby(['Fare']).mean()
fare

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第10张图片
数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第11张图片
数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第12张图片

相同的地方跌倒两次,看来确实有必要认真的搞一下了,大牛们,能否指点一波??


####(二)数据模型定义

简单粗暴的方式,对不起:原谅我。

(1)数据模型处理

  • 单身死
  • 男性全死
  • 女性全活
  • 三等舱全死

感觉很毒啊,这个模型定义的,一个字:死!

# 单身死
result.loc[test3[test3.loc[:,'isalone']==1].loc[:,'PassengerId'].values] = 0 
result.head()

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第13张图片

result.to_csv('isalone.csv')

# 判断:男性全死,女性全活,三等舱全死
new3 = pd.DataFrame(np.arange(0,418),index=test3.loc[:,'PassengerId'].values)
new3[0]=0 # 默认全死
new3.head()

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第14张图片

# 三等舱死
new3.loc[test2[test2.loc[:,'Pclass'] == 3].loc[:,'PassengerId'].values] = 0
new3.head()

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第15张图片

(2)机器学习建模

from sklearn import neighbors,datasets

x = train3.loc[:,['Pclass','Sex','familysize']]
y = train3.loc[:,'Survived'] # 生死

clf = neighbors.KNeighborsClassifier(n_neighbors=20)
clf.fit(x,y)# knn训练
clf

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第16张图片

# knn预测
pre_z = clf.predict(test3.loc[:,['Pclass','Sex','familysize']])
pre_z

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第17张图片

# 伪造表
s = np.arange(892,1310)
s

results= pd.DataFrame(pre_z,index=s)
result.head()

数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)_第18张图片

总结:整篇下来,可能会有点乱,但是路子呢,还是一样子的,就差不多一个模子。当然了,这是小白基础,专门针对我这样子的小白,大佬勿喷。代码跟数据会上传上来。更多个人博客文章请访问:https://blog.csdn.net/xudailong_blog

--------------------------------------- 下面是广告 ------------------------------------------------

ad time

超详细图文搭建个人免费博客

欢迎关注「蛇崽网盘教程资源」公众号 ,在微信后台回复「领取资源」,获取IT资源200G干货大全。

在微信后台回复「130个小程序」,即可免费领取享有导入就能跑的微信小程序

在微信后台回复「电影」,即可获取全部泰坦尼克号数据集
在这里插入图片描述

--------------------------------------- 上面是广告 ------------------------------------------------

你可能感兴趣的:(数据挖掘)