数据分析带你回顾历史上的百年奥运

2020东京奥运会已经结束了,才想起来写一篇关于奥运会的数据分析文章,真是前些天都太热衷于追奥运了。

找了一下,网上果然有从1896第一届现代奥运会开始至2016年里约奥运会的全部数据,当然如果你感兴趣,还可以把2020年的给加上,于是,我们就可以用这些数据来重新回顾一下这100多年来的奥运会历史了!


image

01 提出问题

奥运会,全称:奥林匹克运动会,发源于2000多年前的古希腊,因举办地在奥林匹亚而得名,每4年一届,是世界上影响力最大的体育盛会。

1896年,停办了1500年的奥运会终于得以重办,这也是首届现代奥运会,如今已举办了32界夏季奥运会,23界冬季奥运会。

我们可以带着以下3个问题来分析这份数据,了解历史。

  1. 地域上,哪些国家/地区举办奥运会次数最多?参赛的运动员最多?获奖最多?
  2. 个人上,历年来男女参赛的运动员表现如何?
  3. 项目上,有没有哪些项目是某些国家/地区的强项?

02 数据探查

数据来源:
https://www.heywhale.com/mw/dataset/5b62ca77a711e60010ab1154

共两份数据,一份athlete_events.csv,包含了参赛运动员基本生物数据和奖牌结果。

一份noc_regions.csv,是国家奥委会3个字母的代码与对应国家信息。

分析工具:Power BI + Excel

1.1 字段介绍

运动员数据包含了从1896年至2016年,历届奥运会每位运动员参赛的数据,共271116行15个字段,每行对应每位运动员参加奥运会项目的信息。

  • ID:每个运动员的唯一编号,共135571个编号
  • Name:运动员姓名
  • Sex:运动员性别,F是女性,M是男性
  • Age:运动员年龄
  • Height:运动员身高,单位cm
  • Weight:运动员体重,单位kg
  • Team:运动员代表队,如中国
  • NOC:国家奥委会三字代码
  • Games:运动员参加的哪一届奥运会
  • Year:年份
  • Season:季节
  • City:主办城市,如北京
  • Sport:运动项目,如篮球
  • Event:具体项目,如男子篮球
  • Medal:奖牌,如金牌、银牌、铜牌或没有

奥委会数据:

  • NOC:国家奥委会3个字母的代码
  • Region:国家/地区
  • Notes:备注

这里需要理解的是:

  • ID号比实际数据量少是因为会有1个运动员参加几个项目的情况,一个运动员对应一个ID编号,而非一条数据对应一个ID。
  • NOC是指国家奥委会三字代码,比如中国的代码是CHN
  • GAMES是用年份+季节命名的哪一届奥运会,比如2016 Summer是2016年夏季奥运会。奥运会其实包含夏季奥运会、冬季奥运会、残奥会等,夏奥会受关注较多,这份数据是包含夏奥会和冬奥会的。
  • TEAM是该运动员所在的代表队,也就是运动员所属的国家/地区。插播一条冷知识,奥运会是以奥委会为代表团参加的,而不是以国家为代表,所以也一直在强调“国家或地区”这个概念,也是为什么台湾会参与,并且是以中华台北的名义,因为中华台北奥委会是国际奥委会的成员,所以它可以参与,历史上它还以“中华民国”的名义参与,被我们抵制了。

将两份数据以NOC为共同字段进行关联,就可以得到每个运动员所属的国家/地区了。

将数据导入Power BI,它会自动设置好关联。


image

1.2 数据处理

1.2.1 缺失值

这份数据在Age、Height、Weight、Medal列存在缺失值:

  • Medal的缺失值表示该运动员在此项目上没有拿到奖牌,不用处理
  • Age列有9474个缺失值,占比3.5%
  • Height列有60171个缺失值,占比22%
  • Weight列有62875个缺失值,占比23%

年龄、身高、体重属于个人信息,本来想做一些填充处理,但发现很多空值都是某一个国家,一个类别的项目,一大片的缺失,无法根据已知信息去填充,所以这里就空着吧,保留原始数据。


image

1.2.2 异常值

Team里命名是不规范的,可以看到一个代表队后面跟了好几个数字,但好在这些代表队的奥委会编码NOC都是一样的,因此可以直接根据NOC去匹配国家/地区,这里就不处理了。其他的数据都比较规范,没有什么异常值。


image

1.2.3 重复值

介绍字段的时候提到了,一个ID代表一个运动员参加的一个项目,因此ID重复是正常的,因为一个运动员可能不止参加一项比赛。

03 数据分析

夏季奥运会从1896年开始,每4年举办一次,这份数据是到2016年的,共举办了29次,冬季奥运会举办了22次。

相信对数字敏感的你已经发现问题了,文章开头刚提到2020东京奥运会是第32界奥运会,这里的夏季奥运会怎么才举办了29次呢?少了哪3届没有举办呢?

其实看一下年份就发现端倪了,两次世界大战的缘故,原拟在1916、1940、1944年举办的三届奥运会成了空白。


image

参与人数逐年增加

从1896年第一届现代奥运会176名运动员12个国家/地区参赛开始,到2016年伦敦奥运会11179名206个国家/地区,运动员参赛数量逐渐增加(2020年东京奥运会参赛运动员11669名,204个国家/地区),下图是夏季奥运会的运动员参赛数量和参数国家/地区数的图。


image

图中红圈圈出来的是3个明显的低点,非常值得说道:

  • 1932年洛杉矶奥运会,因费用问题,参赛人数显著减少,值得一提的是,也是此次奥运会,中国首次派出了代表团,也就是我国奥运第一人刘长春,参与了田径项目,这也是我们征战奥运的第一枪。
  • 1956年墨尔本奥运会,是历史上唯一一次在不同时间、地点举行的奥运会,且当时正值美苏冷战的大背景下,多国弃权,人数少也就可想而知了。并且此次奥运会中国代表团拒绝参赛,原因是国际奥委会一面承认中华人民共和国,一面同意台湾以“中华民国”名义参加奥运会,为了反对分裂中国的企图,中国严肃地抵制了该届奥运会。
  • 1980年莫斯科奥运会,当时苏联还没解体,奥运会第一次在社会主义国家举办,为了抗议苏联入侵阿富汗,美国等国发起抵制莫斯科奥运会,使得最终只有80个国家参加,这是自1956年以来最少国家参加的一届奥运会。

女性运动员参赛人数逐渐增加

1900年23名女性首次参加了奥运会,占比1.87%,1980年开始女性参赛的数量大幅增加,到2016年5034名女运动员参赛,占比45%。


image

历史上男女运动员比例。


image

比赛项目种类逐渐丰富

历届奥运会比赛项目种类也是逐渐增加,1896年夏奥会上只有9个,到2016年有36个项目。

image

参与人数最多的运动

历史上参与人数最多的项目是田径,其次是游泳、划船、足球。


image

男女运动员参与这些项目的人数比例情况如下图,在棒球、北欧两项(冬奥会项目)、拔河、橄榄球、马球、长曲棍球等13个项目上完全没有女运动员参与,不过在艺术体操、花样游泳、垒球上也都没有男运动员参加。


image

国家/地区之最

No.1 哪个国家参加奥运会的次数最多

历史上总共有208个国家/地区参加过奥运会,澳大利亚、法国、希腊、意大利、瑞典参加了全部29次夏季奥运会,中国参加了19次。


image

No.2 哪个国家派遣的运动员最多

可以看到历史上美国派遣参加奥运会的人数最多,其次是德国,中国排在第11位,这也和我们前期没参与有关。


image

No.3 举办奥运会次数最多的城市是哪个

历史上共有42个城市举办过奥运会,其中雅典和伦敦举办过3次,因斯布鲁克、普莱西德湖城、洛杉矶、巴黎、圣莫里兹、斯德哥尔摩举办了两次,剩下的城市都只举办过1次。


image

通过绘制数据地图可以看出,欧洲国家不管是在单个城市承办次数还是数量上都有明显优势,不过北京也马上要成为举办过2次奥运会的城市了(2008年夏季奥运会和即将到来的2022年冬季奥运会)。


image

No.4 哪个国家获奖最多?

历史上获得奖牌最多的国家是美国,其次是俄罗斯、德国、英国。在今年的东京奥运会上,我们拿到了38块金牌,88块奖牌。


image

N0.5 哪个国家哪个项目的金牌最多

在大项目上,美国的游泳、田径拿的金牌占了几乎半壁江山。


image

个人之最

通过查看运动员年龄分布状况,可以知道选手21~24岁的人数是最多的,男女运动员都差不多。


image

从拿奖牌的选手的年龄分布上也可以看出,还是22~23岁的选手获奖最多。


image

No.1 年龄最小的选手

年龄最小的是10岁的这条数据,我核实了一下,居然是真的,Dimitrios Loundras这位10岁的小朋友,在1896年雅典奥运会上获得了体操男子团体铜牌,是奥运史上最年轻的获奖牌的运动员。


image

No.2 年龄最大的选手

那么97岁的这位运动员,我觉得也不是异常值了,这位John Quincy Adams Ward参加了1928年阿姆斯特丹奥运会,艺术类的雕塑项目,虽然没有获得奖牌,但他以97岁的高龄成为年龄最大的奥运会选手。

这里又有个冷知识了,关于奥运会艺术竞赛。

1912年到1948年的7届奥运会中都有美术类竞赛,如建筑、文学、音乐、绘画和雕塑,从1952年起,奥运艺术竞赛就被取消了,后来改为奥林匹克艺术大会。


image

No.3 身高最低的选手

身高最低的选手有两位,都是127cm,一男一女。

一位是来自墨西哥的体操女子全能选手Rosario Briones参加了1968年墨西哥奥运会。

另一位是来自马拉维的男子拳击运动员Lyton Levison Mphande,参加了1988年汉城奥运会。


image

No.4 身高最高的选手

身高最高的是我们的姚明,226cm,2000、2004、2008年的奥运会篮球项目都有参与。


image

No.5 最轻的选手

体重最轻的选手是这位来自朝鲜的女子体操全能运动员,只有25kg,真·身轻如燕,参加了1980年莫斯科奥运会。


image

No.6 最重的选手

体重最重的选手是这位来自关岛的男子柔道运动员,参加了2008年、2012年两届奥运会。


image

参加奥运会次数最多的选手

有位名叫Ian Milar的马术运动员参加了10次奥运会,自1972年开始,他代表加拿大征战奥运,直到2012年,是他参加的第10次夏季奥运会了,并且在2008北京奥运会上他第一次拿到了马术项目的团体银牌,真是一个非常励志的故事。


image

获得金牌最多的选手

史上获得金牌最多的选手是来自美国的“飞鱼””菲尔普斯,以23枚金牌数远超第二多的选手13枚。


image

中国情况

1932年我国派出第一个奥运代表团参加奥运会,刘长春这个名字被我们深深地记住了。1984年以后我们开始派出大规模的代表团参赛,2008年北京奥运会,有633名选手参赛,达到了历史最高水平(2020年东京奥运会中国派出431名运动员)。


image

中国奥运史上男女运动员参赛比例情况如下图所示,可以看到比起国际数据,我们女性选手的地位要高很多了,1994年女运动员占比达到了72%的最高水平。


image

我国参与人数最多的项目是田径,其次是游泳、篮球、射击、举重,女运动员参与人数最多的5项运动是田径、游泳、举重、排球、篮球,男性则是田径、游泳、射击、篮球、击剑。
image

image

我国拿奖牌最多的比赛项目是体操(60块奖牌),其次是排球、举重、游泳、羽毛球、跳水、乒乓球。

拿金牌最多的项目是排球(可能因为排球人数比较多),单人项目上金牌最多的运动是跳水、举重。


image

我国获金牌最多的选手有3位,都是拿了5块金牌,跳水运动员陈若琳、跳水的吴敏霞、体操运动员邹凯。


image

04 写在最后

最后总结一下,

  • 奥运会参数运动员人数从第一届的176名增加到第32届的11669名,奥运会不断覆盖更多的人数
  • 女性运动员从最初的不到占比2%到如今的45%,有了很大的突破
  • 比赛项目的种类也从9个增加到如今的36个,种类越来越多
  • 历史上参赛人数最多的项目是田径,其次是游泳、划船、足球
  • 澳大利亚、法国、希腊、意大利、瑞典参加了全部29次夏季奥运会,中国参加了19次
  • 美国派遣参加奥运会的人数最多,其次是德国,中国排在第11位
  • 历史上共有42个城市举办过奥运会,其中雅典和伦敦举办过3次
  • 获得奖牌最多的国家是美国,其次是俄罗斯、德国、英国,中国排在第12位
    ...

写这篇文章,查了很多奥运知识,自己也学到了不少的冷知识,百年奥运的数据分析到这其实还只是个开始,你有什么想法都可以拿它来练手。

希望奥运会也能永远保持初心,让更高更快更强的奥运精神不只是一句口号,我们下一个奥运再见了。

另附数据来源,可自行下载:
https://www.heywhale.com/mw/dataset/5b62ca77a711e60010ab1154


作者简介:
个人IP:可乐的数据分析之路
data_cola
《Excel数据处理与分析——数据思维+分析方法+场景应用》作者

你可能感兴趣的:(数据分析带你回顾历史上的百年奥运)