[数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!

写在前面的话:

这是针对世界杯数据分析的第3篇文章,想看前面两篇内容的,点击下面的链接:

[数据分析实例1]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图https://blog.csdn.net/m0_59541412/article/details/130864289[数据分析实例2]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!https://blog.csdn.net/m0_59541412/article/details/130884091?spm=1001.2014.3001.5502


目录

写在前面的话:

一、数据集介绍

二、导入数据

三、数据预处理-数据清洗

1.历年现场观众人数变化趋势2.历年进球数变化趋势3.历史上夺冠次数最多的国家队是哪支?4.夺冠队伍所在洲分析5.哪些国家队能经常打入决赛/半决赛?6.进入决赛的队伍夺冠概率是多少?7.东道主(主办国)进入决赛/半决赛大吗?

1.历年现场观众人数变化趋势

2.历年进球数变化趋势

2.夺冠次数分析

3.1半决赛(4强)队伍次数统计

3.2决赛队伍次数统计¶


一、数据集介绍

本次数据分析项目数据均来自FIFA官方数据整理的基础数据表

世界杯成绩信息表:WorldCupsSummary

包含了所有21届世界杯赛事(1930-2018)的比赛主办国、前四名队伍、总参赛队伍、总进球数、现场观众人数等汇总信息,包括如下字段:

Year: 举办年份
HostCountry: 举办国家
Winner: 冠军队伍
Second: 亚军队伍
Third: 季军队伍
Fourth: 第四名队伍
GoalsScored: 总进球数
QualifiedTeams: 总参赛队伍数
MatchesPlayed: 总比赛场数
Attendance: 现场观众总人数
HostContinent: 举办国所在洲
WinnerContinent: 冠军国家队所在洲

二、导入数据

import pandas as pd
excelData = pd.ExcelFile('D:/data/WorldCupsSummary.xlsx')  
summary = excelData.parse('WorldCupsSummary')              
summary

[数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第1张图片

三、数据预处理-数据清洗

这份数据表包含了从1930到2018年间共21届世界杯赛事的汇总信息。

从表格中我们还可以看到"Germany FR(联邦德国)"的信息,因此有必要对数据进行清洗,接下来我们进行数据预处理:

数据预处理的主要涉及到数据清洗,以及针对我们要分析的问题进行特定字段的转化。这里我们只要将Germany FR 替换成 Germany就可以了。

import pandas as pd
excelData = pd.ExcelFile('D:/data/WorldCupsSummary.xlsx')  
summary = excelData.parse('WorldCupsSummary')              
summary = summary.replace(['Germany FR'], 'Germany')       
summary

[数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第2张图片

 在做完基础的数据预处理工作之后,我们来分析如下问题:

1.历年现场观众人数变化趋势
2.历年进球数变化趋势
3.历史上夺冠次数最多的国家队是哪支?
4.夺冠队伍所在洲分析
5.哪些国家队能经常打入决赛/半决赛?
6.进入决赛的队伍夺冠概率是多少?
7.东道主(主办国)进入决赛/半决赛大吗?


1.历年现场观众人数变化趋势

这个表是从一个Excel文件中导入数据并对数据进行清洗,最终展现了年份与现场观众出勤次数之间的关系

[数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第3张图片

 [数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第4张图片

 可以看到,世界杯的现场观众总数整体呈上升趋势,观众总数最多的一届是1994年的美国世界杯

2.历年进球数变化趋势

我们来看看历届世界杯上大佬们的进球总数:

[数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第5张图片

 [数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第6张图片

可以看到,随着世界杯参赛队伍的增多,比赛总进球数也在增加。目前单届世界杯总进球数均没有超过175球,并且,2022年的卡塔尔世界杯结束后没有超过175球,没有创造进球数记录。
分析完总体趋势后,我们再来看看各支队伍夺冠情况。

2.夺冠次数分析

[数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第7张图片

[数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第8张图片

可以看到巴西是夺冠次数最多的国家,无愧足球王国的称号。德国、意大利两个足球紧随其后,分别是4次夺冠。我们再来看看各国家队进入半决赛(4强)次数统计。

3.1半决赛(4强)队伍次数统计

teams = summary[['Winner', 'Second', 'Third', 'Fourth']].apply(pd.value_counts).reset_index().fillna(0)
teams['SemiFinal'] = teams['Winner'] + teams['Second'] + teams['Third'] + teams['Fourth']
teams['final'] = teams['Winner'] + teams['Second']
teams

[数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第9张图片  [数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第10张图片

[数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第11张图片

 对数据进行可视化分析后,一眼就可以看出德国队是进入半决赛次数最多的队伍,紧随其后的是巴西队和意大利队,这和夺冠数量的分布基本一致。

下面,我们再来看看进入决赛的队伍统计,是否也是这个趋势:

3.2决赛队伍次数统计¶

[数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第12张图片

 [数据分析实例3]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,干货满满,赶紧收藏学习起来!_第13张图片

从图中我们可以果断看出:德国、巴西、意大利3个足球强国也是进入决赛次数最多的队伍。

好了,今天学习的时间已经很长了,下一篇我们将会看看进入决赛后各支队伍夺冠的概率如何?

请拭目以待哦,觉得有用,请记得点赞关注哦,谢谢各位支持布丁的小伙伴啊

你可能感兴趣的:(数据分析,学习技巧,python学习,python,matplotlib,数据分析)