【大数据部落】NBA体育决策和数据挖掘分析

原文链接  http://tecdat.cn/?p=1370

 

In the Internet age, data is the most valuable resource, big data to lead the traditional industries, gave birth to new vitality. Almost all industries are embracing large data, the sports industry is also closely related, data capture, storage and analysis of the continuous progress of technology is a positive impact on all aspects of the sports industry.

业务挑战

体育运用大数据主要体现在以下三个方面: 预测比赛结果和奖牌归属;更好地训练运动员 。数据和模型驱动体育决策让获胜和成功变得更有可能,体育统计(Sports Analytics)成为体育竞争的“杀手锏”。

具体服务

要在运动中有效地使用分析,我们要知道如何处理数据、识别数据源、收集数据、组织和准备进行分析、从数据构建模型。

 从面向体育组织的咨询工作中,推动“数据科学即服务”。最终,实施我们的想法和模式。

数据源准备

随着网络的发展,数据来源丰富,有文本数据以及数字数据。通过爬虫技术抓取网络并利用应用程序编程接口(API),可以从公共数据源中获取很多信息。

构造

想要更好地了解在这些场景中大数据是如何进行预测性分析的,我们需要考虑在预测比赛时所需处理的数据性质。

首先确定关键指标,可用数据包括国别、赛事、成绩、运动员姓名、年龄、过往表现记录、赛场温度、观众出席率、昼夜等。

划分训练集和测试集

确定指标后,把数据分成两个子数据集,即训练数据集和测试数据集。

数据洞察

球员薪酬情况

职业运动队在劳动力市场上相互竞争,而明星球员的劳动力供不应求。薪资上限是保持竞争平衡所必需的,工资也帮助球队限制球员的支出。

美国最专业的运动员有薪资上限。NFL队的2016年薪金上限为5328万美元,平均工资约为270万美元。NBA球队在16赛季的薪金上限为7000万美元,球队的薪金上限以服务年限。例如,拥有十年经验的勒布朗·詹姆斯,最高工资为2300万美元。安东尼·戴维斯的平均工资为2900万美元,是NBA球员中最高的 。2016年MLB的年薪最低为505,700美元。底特律老虎队Miguel Cabrera(MLR)的MLB年薪最高为3100万美元。

下图显示了2016年8月MLB,NBA和NFL的球员薪酬情况。

【大数据部落】NBA体育决策和数据挖掘分析_第1张图片

【大数据部落】NBA体育决策和数据挖掘分析_第2张图片

【大数据部落】NBA体育决策和数据挖掘分析_第3张图片

【大数据部落】NBA体育决策和数据挖掘分析_第4张图片

NFL球员的平均工资约为170万美元,中位数为63万美元。 NBA球员的平均工资约为510万美元,中位数为280万美元。 MLB玩家的平均工资约为410万美元,中位数为110万美元。同时可以看到明星球员的薪资远高于普通球员,拉高了平均水平。

团队支出和胜率的关系

【大数据部落】NBA体育决策和数据挖掘分析_第5张图片

从2016赛季初的团队支出和在常规赛中胜率的关系图中,我们可以看到团队支出对是否能赢得比赛有直接影响。

出席观众和日期的关系

【大数据部落】NBA体育决策和数据挖掘分析_第6张图片

从中我们可以发现日期和出席情况的关系,从而找到用于预测和评估出席率的模型。

球队实力表现

根据15年到16年NBA常规赛的20项指标进行综合分析,我们对 NBA参赛球队进行排序,评出最具实力的球队。

【大数据部落】NBA体育决策和数据挖掘分析_第7张图片

建模

预测观众出席人数——线性模型

【大数据部落】NBA体育决策和数据挖掘分析_第8张图片

估计获胜概率——蒙特卡罗模拟

当我们发现胜率符合经验分布的时候,使用蒙特卡罗模拟方法来估计某个队伍的获胜概率。

【大数据部落】NBA体育决策和数据挖掘分析_第9张图片

预测结果

【大数据部落】NBA体育决策和数据挖掘分析_第10张图片

可以看出,预测值的趋势已经基本与真实趋势保持一致。

模拟结果

通过对比赛日双方球队的表现模拟,我们得到下面的获胜概率热图,从ROC曲线的表现来看,模拟效果理想。

【大数据部落】NBA体育决策和数据挖掘分析_第11张图片

【大数据部落】NBA体育决策和数据挖掘分析_第12张图片

展望

除了以上列举的一些方法, 已经在尝试更复杂的体育统计模型,如深度学习(Long Short-Term Memory网络、卷积神经网络(CNN))等;同时需要考虑到模型的可解释性、可落地性和可扩展性、避免“黑箱”预测;还在尝试采用混合的机器学习模型,比如GLM+SVR,GAM+ NNET等。

用数据驱动体育决策,这种看待体育的独特视角让我们能更好地察觉趋势、选取角度,同时帮助体育爱好者更深入地理解他们喜爱的运动队。

   

你可能感兴趣的:(大数据部落,数据分析,算法)