Python数据分析之--运动员数据揭秘(一)

      在网易云课堂看了城市数据团的课程,对理解利用pytthon进行数据分析的基本流程很有帮助,因此进行复盘总结,加深自己的理解,巩固相关操作。

分析资料及工具:Spyder/Python3.6/Excle/奥运运动员数据.xlsx

声明:分析所用数据来自城市数据团(2016年的历史数据)

      我也有用Excle对数据进行简单分析,结果见运动员数据可视化

分析主题:运动员身高揭秘

首先给大家看看,用python分析所绘制的结果图:

Python数据分析之--运动员数据揭秘(一)_第1张图片

      好了现在步入正题,打开Spyder新建文件,开启数据分析之旅。

首先导入相关工具包并创建好工作路径

import numpy as np               # numpy - Python的数值计算扩展工具包
import pandas as pd              # pandas - 基于Numpy的数据处理工具包
import matplotlib.pyplot as plt  # matplotlib - Python的绘图工具包
import seaborn as sns            # seaborn - matplotlib基础上的高级可视化工具包
import os
os.chdir('C:\\Users\\lenovo\\Desktop\\')    # 创建工作路径

    读取数据,查看基本信息

# 读取数据
df = pd.read_excel('奥运运动员数据.xlsx',sheetname=1)
df_length = len(df)
df_columns = df.columns.tolist()

    现在要分析各项目运动员的身高情况,所以对数据进行筛选,选取姓名、项目、性别、身高这四个字段

# 数据筛选
data = df[['name','event','gender','height']]

    在Spyder里查看data,发现有个别缺失值,因此对缺失值进行处理

# 去掉缺失值
data.dropna(inplace = True)

    分别提取男生、女生的数据,并计算身高平均值

# 提取男女数据
data_male = data[data['gender'] == '男']
data_female = data[data['gender'] == '女']
# 计算男女平均身高
hmean_male = data_male['height'].mean()
hmean_female = data_female['height'].mean()

    对数据进行可视化,绘图

plt.figure(figsize = (10,5))   #设置画布大小
sns.set_style('darkgrid')      #设置图表风格
#Seaborn中有五种可供选择的主题:darkgrid(灰色网格)/whitegrig(白色网格)/dark(黑色)/white(白色)/ticks(十字叉)
    绘制男女高度分布密度图
sns.distplot(data_male['height'],hist = False,kde = True,rug = True,    # 男生的身高
             rug_kws = {'color':'y','lw':2,'alpha':0.5,'height':0.1} ,  # 设置数据频率分布颜色
             kde_kws={"color": "y", "lw": 1.5, 'linestyle':'--'},       # 设置密度曲线颜色,线宽,标注、线形
             label = 'male_height')                                     # 设置图例
sns.distplot(data_female['height'],hist = False,kde = True,rug = True,  # 女生的身高
             rug_kws = {'color':'g','lw':2,'alpha':0.5,'height':0.15} , # 设置数据频率分布颜色
             kde_kws={"color": "g", "lw": 1.5, 'linestyle':'--'},       # 设置密度曲线颜色,线宽,标注、线形
             label = 'female_height')                                   # 设置图例

    绘制运动员平均身高辅助线

plt.axvline(hmean_male,color='y',linestyle=":",alpha=0.8) 
plt.text(hmean_male+2, 0.005, 'male_height_mean: %.1fcm' % (hmean_male), color = 'y')
plt.axvline(hmean_female,color='g',linestyle=":",alpha=0.8)
plt.text(hmean_female+2, 0.008, 'female_height_mean: %.1fcm' % (hmean_female), color = 'g')

    调整图表细节,输出并保存

plt.ylim([0,0.03])               # 调整Y轴刻度
plt.title("Athlete's height")    # 添加图表名
plt.savefig('pic-1.png',dpi=400) # 保存图表

所得绘图表如下:

Python数据分析之--运动员数据揭秘(一)_第2张图片

    根据图表可以看到,女生的身高主要集中在160-180,超过2米的很少;而男生的身高主要分布在160-195,也有超过220cm的,分布相对分散;女生的平均身高为170cm,男生的平均身高则更高一些为180.8cm;由此看来参加奥运会的运动员们,身高普遍偏高。

你可能感兴趣的:(数据分析,数据分析,python)