2018-02-05(kaggle上很有意思的NBA数据分析案例)

今天浏览 kaggle 的时候发现一个非常有意思的NBA数据分析案例 https://www.kaggle.com/dhamlett/nba-player-rpm-prediction-defense-vs-offense/notebook  NBA Player RPM Prediction | Defense vs Offense。数据分析由python完成,代码不是很长,而且可视化的部分个人感觉非常美观,非常棒的学习材料。简单记录自己的重复过程。本次分析的主要目的:NBA球员的防守表现是否比进攻表现更适合更适合用来预测球员的RPM?(Is an NBA player's defensive performance better suited to predict that  player's RPM , than their offensive performance?)。原文所用数据是2016-2017赛季342位球员的统计数据,各项统计指标如下

2018-02-05(kaggle上很有意思的NBA数据分析案例)_第1张图片

real plus minus 翻译过来应该是真实正负值,具体怎么计算自己还没有搞明白,应该是用来衡量球员表现的一个很重要的指标,比如昨天火箭对骑士的比赛,保罗14投8中,三分9中6,高效拿下22分8篮板11助攻的准三双表现,在场正负值高达+47,不知道这个real plus minus(RPM)和我们平时看比赛时听到的正负值是不是同一个指标。

分析的第一步是简单的用回归散点图来看一下球员的RPM与出场时间是否有关系,代码

2018-02-05(kaggle上很有意思的NBA数据分析案例)_第2张图片
2018-02-05(kaggle上很有意思的NBA数据分析案例)_第3张图片

结果图

2018-02-05(kaggle上很有意思的NBA数据分析案例)_第4张图片

通过这张图可以看出出场时间和RPM之间有一定的相关性,接下来又绘制了球员出场时间按场上位置分组的散点图,目的是看一下是否可以提供额外的参考信息,代码

图片

2018-02-05(kaggle上很有意思的NBA数据分析案例)_第5张图片


从图中可以看出一个很有意思的现象,RPM值比较高的第一梯队中,几乎没有得分后卫,小前锋和组织后卫居多,只有一位大前锋,看来现在真的是得分后卫凋零的时代呀,是不是非常怀念当年的西科东艾,北卡南麦的时代呢!

今天就先到这里啦,后面还有很多有意思的分析和可视化,争取python代码实现以后再用R语言重复一遍。

ps:原文数据直接在kaggle就可以下载,但是自己下载过程也浪费了一些时间,不知道什么原因,最后打开了科学上网软件才成功下载,附上数据百度云链接nba_2017_nba_players_with_salary.csv_免费高速下载|百度网盘-分享无限制,大家如果在kaggle没有下载成功,可以直接用百度云下载。

你可能感兴趣的:(2018-02-05(kaggle上很有意思的NBA数据分析案例))