一、背景
(一)数据来源及其主要内容
从课程提供网址获取baseball_data.csv
数据集。
该数据集包含1157名棒球球员数据以及6个变量,分别为: 球员姓名(name)、偏手性(handedness)、身高(height)、体重(weight)、打击率(avg)、本垒打次数(HR)。
(二)核心问题
简单的图像分析就能发现,有一些表现极为突出的球员,如Reggie Jackson、Jim Rice、Mike Schmidt、Reggie Smith等等,甚至有报道称,Schmidt 的队友Pete Rose 曾经说过,"To have his body, I'd trade him mine and my wife's, and I'd throw in some cash."
究竟什么样的身体如此迷人,这也将成为本次数据探索的核心问题:优秀球员的Body究竟有何过人之处?
(三)主要内容
围绕核心问题,将开展两部分探索分析:一是球员整体分析,包括身体情况分析、球场表现分析;二是身体对球员的影响,包括身体情况与球场表现的关系分析、优秀球员的异质性分析。
(四)故事链接
供探索的故事链接如下:
1、第一个版本
2、第二个版本(也是最终版本)
二、故事总结
(一)球员身体素质
1157名职业棒球球员的平均身高为72.76英寸,体重为184.51磅,以用右手居多。
(二)球场表现
平均来看,球员的打击率为0.19,本垒打45.36次,值得注意的是相当一部分球员打击率几乎为0或本垒打数量为0。
(三)相关关系
从身体素质和球场表现的相关性分析来看,身高和体重对打击率与本垒打的影响并不大,相关性在0.1-0.2直接,而打击率与本垒打具有明显相关性,尤其对于右手,这种相关性尤为明显。
(四)传奇球员
如果把打击率高于平均水平、本垒打数量也高于平均水平的球员视为球队的“传奇”,探索这类球员的身高、体重的数据时候发现,他们的身高、体重分布明显更为集中,不会过重过轻,也不会过高或过低,但平均水平比整体略矮略胖。
三、设计选择
(一)球员分析部分
采用Histogram来反应数值变量的分布,采用horizontal bar反应分类变量的分布,采用treemap筛选MVP球员。
(二)身体对球员表现的影响部分
采用散点图来反应相关关系。为突出表达探索目的,对High-High组进行了高亮显示。加入了Average参考线并作为球员分类依据,加入了大小要素来反应球员价值(MVP),加入了形状来反映左右手。
四、反馈情况
共找了三人:
第一人反馈
1、初始界面是图3,应该是图1;
2、图3的分组颜色应该用对比度更强的;
3、图4应该增加图例来帮助阅读;
4、图4的散点图并不太好区分。
修改:与v1版本相比,调整了初始界面;增强了图3的分组;增加了图4的图例;增加了图4更多可视化要素。
第二人反馈
1、图1和图2有重复表达;
2、图3中如果身高体重都不是关键影响因素,那还有什么影响因素么?
3、我觉得挺好的,从数据分析的角度你通过相关性分析能够回答提出的问题,从现有的数据中挖掘出造就MVP球员的关键因素,这个逻辑呈现证明你具备了数据分析的思维,但是,或许是由于数据集维度受限,本次分析多局限于球员本身的身体因素。如果未来有机会获取更全面的数据集,建议分析一下MVP球员与年龄、地域和受训时间等因素的相关关系。
修改:与v1版本相比,更换了图2的表达方式,更加突出MVP;修改了各图的说明文字以便更流畅的表达分析结论。
第三人反馈
挺好!
五、资源
绘制相关性矩阵的一些技巧:
https://kb.tableau.com/articles/howto/finding-the-pearson-correlation
https://kb.tableau.com/articles/HowTo/creating-a-correlation-value-matrix
https://www.youtube.com/watch?v=wa4lOPxNyPc
https://anthonysmoak.com/2018/05/11/basic-statistics-in-tableau-correlation/