目录
前言
一、数据集介绍
二、读取数据,去重
三、夺冠球队进失球率展示
1. 计算进球数、进球率及场次
2. 计算失球数、失球率及场次
3. 夺冠国家进失球率矩阵图
四、夺冠球队顺逆风球情况
1. 构造胜负关系
2. 主、客队胜负类别可视化
3. 顺、逆风球球队柱图
4. 夺冠国家胜负类别可视化
五、其余可视化部分展示
本次只是针对世界杯比赛比分汇总表做了两个专题分析展示,一个是夺冠球队进失球率,一个是夺冠球队顺逆风球情况
赛事数据链接:世界杯数据可视化分析赛题与数据-天池大赛-阿里云天池
本次数据分析项目包括3张来自FIFA官方数据整理的基础数据表
世界杯成绩信息表:WorldCupsSummary
包含了所有21届世界杯赛事(1930-2018)的比赛主办国、前四名队伍、总参赛队伍、总进球数、现场观众人数等汇总信息,包括如下字段:
世界杯比赛比分汇总表:WorldCupMatches.csv
包含了所有21届世界杯赛事(1930-2014)单场比赛的信息,包括比赛时间、比赛主客队、比赛进球数、比赛裁判等信息。包括如下字段:
世界杯球员信息表:WorldCupPlayers.csv
import pandas as pd
df=pd.read_csv("/WorldCupMatches.csv")
df.shape
# (852, 19)
df[df.duplicated()] # 筛选重复值 16个重复值
df=df.drop_duplicates() #删除重复项
df.shape
#(836, 19)
# 主队进球数
data1=pd.DataFrame(df.groupby("Home Team Name")["Home Team Goals"].agg(["count",'sum']).sort_values('sum',ascending=False).reset_index())
data1.rename(columns={'Home Team Name': '球队','count': '场次','sum':'进球数'}, inplace=True)
# 客队进球数
data2=pd.DataFrame(df.groupby("Away Team Name")["Away Team Goals"].agg(["count",'sum']).sort_values('sum',ascending=False).reset_index())
data2.rename(columns={'Away Team Name': '球队','count': '场次','sum':'进球数'}, inplace=True)
# 合并
data3=data1.merge(data2,on="球队",how="outer")
data3=data3.fillna(0) # 因为部分球队没有作为主队出场过,所以合并后会有NaN,用0填充
data3
data3["总场次"]=data3["场次_x"]+data3["场次_y"]
data3["总进球数"]=data3["进球数_x"]+data3["进球数_y"]
data3["进球率"]=(data3["总进球数"]/data3["总场次"]).round(2)
data3.sort_values("进球率",ascending=False)[:10]
球队 | 场次_x | 进球数_x | 场次_y | 进球数_y | 总场次 | 总进球数 | 进球率 |
Hungary | 18 | 73 | 14 | 14 | 32 | 87 | 2.72 |
Brazil | 78 | 176 | 26 | 45 | 104 | 221 | 2.12 |
Germany FR | 43 | 99 | 19 | 32 | 62 | 131 | 2.11 |
Germany | 32 | 66 | 12 | 27 | 44 | 93 | 2.11 |
Turkey | 2 | 10 | 8 | 10 | 10 | 20 | 2 |
France | 29 | 66 | 30 | 40 | 59 | 106 | 1.8 |
Netherlands | 29 | 49 | 21 | 37 | 50 | 86 | 1.72 |
Soviet Union | 18 | 43 | 13 | 10 | 31 | 53 | 1.71 |
Argentina | 52 | 109 | 25 | 22 | 77 | 131 | 1.7 |
Denmark | 7 | 13 | 9 | 14 | 16 | 27 | 1.69 |
进球率排名前十的球队。
# 主队失球数
data4=pd.DataFrame(df.groupby("Home Team Name")["Away Team Goals"].agg(["count",'sum']).sort_values('sum',ascending=False).reset_index())
data4.rename(columns={'Home Team Name': '球队','count': '场次','sum':'失球数'}, inplace=True)
# 客队失球数
data5=pd.DataFrame(df.groupby("Away Team Name")["Home Team Goals"].agg(["count",'sum']).sort_values('sum',ascending=False).reset_index())
data5.rename(columns={'Away Team Name': '球队','count': '场次','sum':'失球数'}, inplace=True)
# 合并填充
data6=data4.merge(data5,on="球队",how="outer")
data6=data6.fillna(0)
# 失球率
data6["总场次"]=data6["场次_x"]+data6["场次_y"]
data6["总失球数"]=data6["失球数_x"]+data6["失球数_y"]
data6["失球率"]=(data6["总失球数"]/data6["总场次"]).round(2)
data6.sort_values("失球率",ascending=True)[:10]
球队 | 场次_x | 失球数_x | 场次_y | 失球数_y | 总场次 | 总失球数 | 失球率 |
Angola | 1 | 1 | 2 | 1 | 3 | 2 | 0.67 |
rn">Republic of Ireland | 5 | 2 | 8 | 8 | 13 | 10 | 0.77 |
Wales | 1 | 1 | 4 | 3 | 5 | 4 | 0.8 |
German DR | 3 | 2 | 3 | 3 | 6 | 5 | 0.83 |
England | 35 | 20 | 27 | 36 | 62 | 56 | 0.9 |
Italy | 57 | 41 | 26 | 36 | 83 | 77 | 0.93 |
Netherlands | 29 | 20 | 21 | 28 | 50 | 48 | 0.96 |
Brazil | 78 | 66 | 26 | 36 | 104 | 102 | 0.98 |
Norway | 1 | 0 | 7 | 8 | 8 | 8 | 1 |
Serbia | 1 | 1 | 2 | 2 | 3 | 3 | 1 |
失球率由低到高排名前十的球队。
# 合并数据表
data7=data3.merge(data6,on="球队",how="outer")
data7=data7[['球队','总场次_x','总进球数','进球率','总失球数','失球率']]
data7.rename(columns={'总场次_x': '总场次'}, inplace=True)
# 画图
import numpy as np
col=["Brazil","Italy","Germany FR","Argentina","France","Uruguay","England","Germany","Spain"]
result=[]
for i in col:
result.append(data7[data7["球队"]==i])
result=np.array(result)
result=result.reshape(9,6)
result=pd.DataFrame(result,index=col,columns=data7.columns)
result=result.iloc[:,1:].astype('float')
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family']='sans-serif'
mpl.rcParams['font.sans-serif']=[u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False
minx = min(result["失球率"])
maxx = max(result["失球率"])
miny = min(result["进球率"])
maxy = max(result["进球率"])
plt.figure(figsize=(8,8),dpi=100)
for i in range(result.shape[0]):
plt.scatter(x=result["失球率"][i],y=result["进球率"][i],s=result["总场次"][i]*20,alpha=0.65,cmap='viridis')
plt.xlim(xmin= maxx+0.1,xmax=minx-0.1) # 将失球率从大到小设定X轴
plt.vlines(x=result['失球率'].mean(), ymin=miny-0.1, ymax=maxy+0.1,
colors='black', linewidth=1)
plt.hlines(y=result['进球率'].mean(), xmin=minx-0.1, xmax=maxx+0.1,
colors='black', linewidth=1)
for x,y,z in zip(result["失球率"],result["进球率"],col):
plt.text(x, y, z, ha='center',fontsize=10)
plt.xlabel("高<—————— 失球率(%) ——————>低",fontsize=15)
plt.ylabel("低<—————— 进球率(%) ——————>高",fontsize=15)
plt.title("夺冠国家进失球率-波士顿矩阵图", fontsize=20)
plt.show()
这里可以看出,巴西及德国的攻守比较平衡,意大利和英格兰偏重防守。
df["Half-Goal-difference"]=df["Half-time Home Goals"]-df["Half-time Away Goals"] #半场净胜球
df["Away-Half-Goal-difference"]=df["Half-time Away Goals"]-df["Half-time Home Goals"] #作为客队半场净胜球
df["Goal-difference"]=df["Home Team Goals"]-df["Away Team Goals"] #全场净胜球
df["Away-Goal-difference"]=df["Away Team Goals"]-df["Home Team Goals"] #作为客队全场净胜球
# 半场输赢关系
df.loc[df["Half-Goal-difference"] >0 ,'Half-result'] = '6'
df.loc[df["Half-Goal-difference"] ==0 ,'Half-result'] = '0'
df.loc[df["Half-Goal-difference"] <0 ,'Half-result'] = '-3'
df.loc[df["Away-Half-Goal-difference"] >0 ,'Away-Half-result'] = '6'
df.loc[df["Away-Half-Goal-difference"] ==0 ,'Away-Half-result'] = '0'
df.loc[df["Away-Half-Goal-difference"] <0 ,'Away-Half-result'] = '-3'
# 全场输赢关系
df.loc[df["Goal-difference"] >0 ,'result'] = '1'
df.loc[df["Goal-difference"] ==0 ,'result'] = '0'
df.loc[df["Goal-difference"] <0 ,'result'] = '-1'
df.loc[df["Away-Goal-difference"] >0 ,'Away-result'] = '1'
df.loc[df["Away-Goal-difference"] ==0 ,'Away-result'] = '0'
df.loc[df["Away-Goal-difference"] <0 ,'Away-result'] = '-1'
# 相减后为字符串,转化为数字
df["Half-result"]=df["Half-result"].astype("int32")
df["result"]=df["result"].astype("int32")
df["Away-Half-result"]=df["Away-Half-result"].astype("int32")
df["Away-result"]=df["Away-result"].astype("int32")
赋值6,-3是为了区分胜、平、负三种关系,如果按照足球规则3分,1分,0分赋值则无法完全区分。
df["v1"]=df["Half-result"]-df["result"]
df["v2"]=df["Away-Half-result"]-df["Away-result"]
print(df["v1"].value_counts())
print(df["v2"].value_counts())
这里就得到了主客两种情况的结果统计
作为主队结果 | 作为客队结果 | 类别说明 | ||||||
5 | 269 | -2 | 269 | 5 | 上半场赢,全场赢 | |||
-1 | 176 | 1 | 176 | -1 | 上半场平,全场赢 | |||
0 | 134 | 0 | 134 | 0 | 上半场平,全场平 | |||
-2 | 97 | 5 | 97 | -2 | 上半场输,全场输 | |||
1 | 70 | -1 | 70 | 1 | 上半场平,全场输 | |||
-4 | 34 | 7 | 34 | -4 | 上半场输,全场赢 | |||
-3 | 27 | 6 | 27 | -3 | 上半场输,全场平 | |||
6 | 25 | -3 | 25 | 6 | 上半场赢,全场平 | |||
7 | 4 | -4 | 4 | 7 | 上半场赢,全场输 |
import matplotlib as mpl
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
mpl.rcParams["font.sans-serif"]=["SimHei"]
mpl.rcParams["axes.unicode_minus"]=False
df1=pd.DataFrame(df["v1"].value_counts()/df["v1"].count())
df2=pd.DataFrame(df["v2"].value_counts()/df["v2"].count())
g=["5","-1","0","-2","1","-4","-3","6","7"]
g1=["-2","1","0","5","-1","7","6","-3","-4"]
c=["red","yellow","violet","cyan","lightseagreen","silver","orange","olive","green"]
c1=["cyan","lightseagreen","violet","red","yellow","green","olive","orange","silver"]
t=df1["v1"]
t1=df2["v2"]
wedgeprops = {'width':0.3}
explode = (0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.15)
fig = plt.figure(figsize=(15,15))
plt.subplot(121)
plt.pie(t,explode=explode,labels=g,autopct="%3.1f%%",startangle=60,colors=c,wedgeprops=wedgeprops)
plt.title("作为主队半场与全场胜负关系占比")
plt.subplot(122)
plt.pie(t1,explode=explode,labels=g1,autopct="%3.1f%%",startangle=60,colors=c1,wedgeprops=wedgeprops)
plt.title("作为客队半场与全场胜负关系占比")
plt.show()
作为主队,在上半场不败的前提下,全场获胜的场次占比达到53.3%。
作为客队,在上半场打平或者输球的情况下,全场输球的占比达到53.3%。
df3=df[df["v1"]==5] # 顺风球
df3_away=df[df["v2"]==5]
df4=df[(df["v1"]==-3)|(df["v1"]==-4)] # 逆风球
df4_away=df[(df["v2"]==-3)|(df["v2"]==-4)]
fig = plt.figure(figsize=(12,8))
plt.subplot(221)
df3["Home Team Name"].value_counts().sort_values(ascending=True)[-10:].plot(kind= 'barh')
plt.title("作为主队顺风球球队前十")
plt.subplot(222)
df3_away["Away Team Name"].value_counts().sort_values(ascending=True)[-10:].plot(kind= 'barh')
plt.title("作为客队顺风球球队前十")
plt.subplot(223)
df4["Home Team Name"].value_counts().sort_values(ascending=True)[-10:].plot(kind= 'barh')
plt.title("作为主队逆风球球队前十")
plt.subplot(224)
df4_away["Away Team Name"].value_counts().sort_values(ascending=True)[-10:].plot(kind= 'barh')
plt.title("作为客队逆风球球队前十")
plt.subplots_adjust(wspace=0.5,hspace=0.3)
plt.show()
其实世界杯是不分主客场的,小组赛只是针对双方球衣的选择问题,抽到主队的就穿该队的主场球衣,也就是该队的传统比赛服,如西班牙的红色、法国的三色球衣、巴西的黄色、阿根廷的蓝白色等。打到淘汰赛就不是了,16进8小组第一的是主队,而四分之一比如A1对C1,A1就是主队
4.1 作为主队时
plt.figure(figsize=(20,20))
for i, j in enumerate(col):
df_home=df[df["Home Team Name"]==j]
data=pd.DataFrame(df_home.loc[:,"v1"].value_counts()/df_home.loc[:,"v1"].count())
plt.subplot(3,3,i+1)
plt.pie(data["v1"],labels=data.index,autopct="%3.1f%%",startangle=60,colors=c,\
textprops={'fontsize': 15},wedgeprops={'width':0.3},pctdistance=0.7)
plt.title(j, fontsize=18)
plt.show()
作为主队时,各个球队赢球的场次占比都比较多,例如巴西,作为主队(身着黄色球衣)时,在上半场领先的情况下,全场就没有输过球。且全场输球的场次占比只有8.9%,难道主场球衣真有胜负加持?
4.2 作为客队时
plt.figure(figsize=(20,20))
for i, j in enumerate(col):
df_away=df[df["Away Team Name"]==j]
data1=pd.DataFrame(df_away.loc[:,"v2"].value_counts()/df_away.loc[:,"v2"].count())
plt.subplot(3,3,i+1)
plt.pie(data1["v2"],labels=data1.index,autopct="%3.1f%%",startangle=60,\
colors=c1,textprops={'fontsize': 15},wedgeprops={'width':0.3},pctdistance=0.7)
plt.title(j, fontsize=18)
plt.show()
作为客队时,输球的场次占比高于作为主队,例如巴西:全场输的比例达到38.4%
总结
原始数据有3个表格,可以选择自己感兴趣的方向分析,总的来说是一次不错的数据分析锻炼。