奥运会数据分析,奥林匹克数据分析并绘图,python数据分析绘图,期末大作业项目

目录

设置Python环境

查看输入目录中的文件

加载并查看数据集

计算不重复活动次数

根据活动特定的身高-体重平均值填充缺失值

处理年龄列中的缺失值

删除奖牌列中的缺失值

数据可视化

年龄的箱形图

城市频率的条形图

奖牌频率的条形图

季节频率的条形图

性别身高体重的散点图

​编辑

不同奖牌获得者的身高体重分布

按季节划分的年龄分布箱形图

按性别划分的体重分布(按季节)


部分运行截图:

奥运会数据分析,奥林匹克数据分析并绘图,python数据分析绘图,期末大作业项目_第1张图片

奥运会数据分析,奥林匹克数据分析并绘图,python数据分析绘图,期末大作业项目_第2张图片

奥运会数据分析,奥林匹克数据分析并绘图,python数据分析绘图,期末大作业项目_第3张图片

奥运会数据分析,奥林匹克数据分析并绘图,python数据分析绘图,期末大作业项目_第4张图片

奥运会数据分析,奥林匹克数据分析并绘图,python数据分析绘图,期末大作业项目_第5张图片

以下为部分代码示例以及运行截图:

完整代码以及数据集在以下链接:

https://download.csdn.net/download/licy__/90268599

设置Python环境
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

含义与作用

  • 注释解释:这里的注释介绍了当前环境是基于Kaggle提供的Python Docker镜像构建的,这个镜像预装了多个对数据分析非常有帮助的库。
  • 导入库:我们首先导入了numpy(用于数值计算,特别是线性代数运算)和pandas(用于数据处理和CSV文件的读写)。这两个库是数据分析任务中最常用的工具之一。
查看输入目录中的文件
# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

含义与作用

  • 注释解释:这段注释告诉用户,所有输入的数据文件都存放在只读目录../input/中,并且通过运行下面的代码可以列出该目录下的所有文件。
  • 遍历目录并打印文件路径:使用os.walk()函数遍历指定的输入目录,对于每一个找到的文件,它将完整路径打印出来。这一步骤对于了解可用的数据集非常重要,同时也方便后续直接引用文件路径进行数据加载。
加载并查看数据集
df = pd.read_csv('input/120-years-of-olympic-history-athletes-and-results/athlete_events.csv')
df.head()

含义与作用

  • 加载CSV文件到DataFrame:使用pandasread_csv()函数从指定路径加载CSV文件到一个名为df的DataFrame对象中。这个CSV文件包含了120年的奥林匹克历史运动员和比赛结果数据,是分析奥运会相关问题的重要资源。
  • 显示前几行数据:调用df.head()方法来显示DataFrame的前五行内容,这样可以快速浏览数据结构和样本记录,验证数据是否正确加载并且初步了解数据格式。
计算不重复活动次数
essiz_etkinlik = pd.unique(df.Event)
print("不重复活动次数: {}".format(len(essiz_etkinlik)))
essiz_etkinlik[:10]

你可能感兴趣的:(数据分析,数据挖掘)