[翻译]数据科学简介——预测EPL冠军的分步教程

[翻译]数据科学简介——预测EPL冠军的分步教程_第1张图片
Source: Freepik

原文链接: Intro to Data Science

观看体育比赛是很有趣的,我们都有自己喜欢的球队。我经常跟朋友还有同事讨论哪个球队会赢得EPL(译注:英超)的冠军。我们的预测都是基于直觉,也可能是基于最近比赛形成的偏见。提出一个有理有据预测的更好的方式是引入数据科学来预测EPL冠军。

读完本文你将能够:

  1. 阐述数据科学的步骤
  2. 使用上述步骤预测EPL冠军
  3. 了解数据质量的重要性
  4. 定义数据采集的方法

数据科学

首先,让我们从弄懂数据科学的确切定义开始。

  1. 你是否对Amazon、eBay是如何为你推荐商品的感到好奇?
  2. Gmail过滤器是如何分辨垃圾邮件和非垃圾邮件的?
  3. Netflix是如何预测你喜欢的节目的?

他们是怎么做到的?这些是我们不时思考的几个问题。现实中,没有数据的支撑上述几个任务是不可能完成的。数据科学就是利用数据来解决问题。解决的问题可以是决策问题,例如判断一封电子邮件是否是垃圾邮件。或者是产品推荐,例如看哪场电影值得看?或者是预测结果,例如预测谁能当选美国总统?因此,数据科学家的主要工作就是去理解数据,从中提取有用的信息然后应用这些数据来解决问题。

一个比任何软件工程师都擅长统计的人,比任何统计学家都擅长软件工程的人。
—— Josh Wills

视频:数据科学简介

第一步:定义问题描述

在数据科学中,创建一个良好定义的问题描述是首要的步骤。接下来你要解决的问题是对你的问题有一个简明扼要的描述。

不过我们为什么需要一个准确的问题描述呢?

一个准确的描述解决了一半的问题
—— Charles Kettering

同样,在你定义完问题描述之后你所有的努力和工作都是为了解决定义它。对问题的描述来自客户。你的客户可以是你的老板、同事或其他的你的个人项目。他们会告诉你他们遇到了什么问题。下面给出几个例子:

  1. 我想提高收入
  2. 我想预测我信贷部门的贷款违约
  3. 我想为我的客户推荐工作

大多数情况下,客户一开始对你提出的问题是口语化并且有歧义的。比如,问题描述:“我想提高收入”,并没有告诉你要提高多少收入,是20%?还是30%?为哪些产品增加收入?在多大的时间内增加收入?你必须把问题描述变得清晰,目标明确并且可以衡量。这些可以通过问正确的问题来实现。

“正确的问题是得到正确答案的关键。”
—— 杰夫·贝佐斯(Jeff Bezos)

如何才能提出更好或正确的问题来创建定义明确的问题陈述?你应该问开放式的问题,而不是封闭式的问题。开放式的问题有助于发现未知的未知。未知的未知就是你不知道你不知道的事情。

[翻译]数据科学简介——预测EPL冠军的分步教程_第2张图片
Source: USJournal

我们将研究一个问题描述“哪个俱乐部将赢得EPL冠军?”。

第二步:数据采集

你需要收集有助于解决问题的数据。数据收集是从各种来源收集相关信息的系统方法。根据问题陈述,数据收集方法大致分为两类。

首先,当你有一些独特的问题,没有做相关的研究课题。然后,你需要收集新的数据。这种方法被称为主要数据收集。例如,你想知道员工在公司食堂的平均花费时间。目前还没有这方面的公开数据。但你可以通过各种方法收集数据,比如调查、员工访谈以及监控员工在自助餐厅所花的时间。这个方法是很耗费时间的。

另一种方法是使用其他人容易获得或收集的数据。这些数据可以在互联网、新闻文章、政府人口普查、杂志等网站上找到。此方法称为辅助数据收集。此方法比主要数据收集节省时间。

关于我们在EPL上的问题描述。你可以从各种开源网站收集和聚合数据,例如Github、Kaggle和datahub。

[翻译]数据科学简介——预测EPL冠军的分步教程_第3张图片
Table 1: Snapshot of data collected from web sources

第三步:数据质量检查和修复

数据科学家们眼中一个十分重要但经常被忽视的一个方面是,确保用于分析和研究的数据是高质量的。

在收集到数据之后,大多数人就开始研究数据了。通常,他们忘记对数据做一个健全性检查。如果数据的质量糟糕,那么就可能给出错误的信息。简单来说就是:“输入的是垃圾,输出的也是垃圾”。


[翻译]数据科学简介——预测EPL冠军的分步教程_第4张图片
image.png

例如,如果你没有确认数据的质量就开始分析。你可能得到预期之外的结果,比如
水晶宫队会赢得EPL冠军。然而,你在多年观看EPL的经验告诉你,结果看起来不准确,因为水晶宫甚至从未进入过前4名。

第四步:探索性数据分析

在对步骤建模以得出解决方案之前,对数据进行分析是十分重要的。这是最令人兴奋的步骤,这会帮助你建立对数据的熟悉程度并抓取有用的洞见。如果你跳过了这一步,你可能最终产生一个不准确的模型然后选择一个毫无意义的变量加入到你的模型。

正如探索性数据分析开发人员John Tukey所说,

“在学会衡量自己的表现之前,了解自己能做些什么是很重要的。”

但这可能是艰苦和困难的。是否有工具或技术以有意义的方式探索数据?

是的,您可以使用描述性统计,如中心值度量和变异性度量。此外,图形和图表等可视化方法也可用于分析。

举个例子,你可以计算每场比赛的平均进球数。你也可以验证下主场优势是否真的存在。

下面的柱状图展示了利物浦队的主场优势。图表中显示,利物浦队在主场17胜2平,并且主场从未输过。


[翻译]数据科学简介——预测EPL冠军的分步教程_第5张图片
Chart 1: Home Advantage for Liverpool [1]

然而,莱斯特却没有主场优势。下面图表表明在莱斯特的所有主场比赛中,他们赢了8场,输了8场,战平了3场。


[翻译]数据科学简介——预测EPL冠军的分步教程_第6张图片
Chart 2: No home Advantage for Leicester [1]

资料来源:Quantra数据科学简介

数据分析是一个迭代的过程,这会帮助你越来越接近问题的解决方案。每次迭代都有个一个与之相关的成本。因此,作为一个数据科学家我建议你有一个得当的计划,这样才能减少迭代的次数。你可以玩弄数据,创建自己的图表,学习推导推论。你使用的所有这些分析通常称为探索性数据分析(EDA)。

第五步:数据建模

建模意味着制定每一步并收集能实现解决方案所需要的技术。你需要列出计算的流程,这只是解决方案的建模步骤。一个很重要的因素是如何执行这些计算。在统计和机器学习之下有很多种技术供你选择,你可以基于你的要求选择合适的技术。

对于EPL数据,我们使用统计技术来预测当前赛季的EPL冠军。

[翻译]数据科学简介——预测EPL冠军的分步教程_第7张图片
Figure 1: Data Modelling Steps [1]

最强六队

基于过去三个赛季的数据,我们可以看出虽然EPL冠军是不同球队获得的,但最强的六只球队总是不变的。这些球队包括阿森纳、切尔西、利物浦、曼城、曼联和托特纳姆热刺。下赛季的EPL冠军非常可能来自这六只实力最强的球队。

根据球员水平对球队排序

我们知道,在足球中,球员可以是进攻队员、防守队员、中场球员或守门员。每个位置都需要不同的身体技能。根据运动员的身体技术和所处的位置对他打分。评分以0-100分为准。每一项技能都有一个权重。

[翻译]数据科学简介——预测EPL冠军的分步教程_第8张图片
Table 3: Player skills by Club. [1] and [2]

按过去的表现对球队排序

我们对球队的实力排名,球队的实力基于胜场数和上赛季的净胜分。

[翻译]数据科学简介——预测EPL冠军的分步教程_第9张图片
Table 4: Club last season performance.

结合名次预测冠军

上面最终排名前6的球队,我们考虑给球员水平80%的权重,球队上赛季的实力给20%权重。
基于上述计算方法,托特纳姆热刺看起来能应该EPL冠军。


[翻译]数据科学简介——预测EPL冠军的分步教程_第10张图片
Table 5: Combining Player skills and Past Performance

第六步:数据传达

最后一步是你将分析结果展示给利益相关者。你向他们解释你是如何得出这个特定的结论以及你的关键发现的。

大多数时候,你需要把你的发现呈现给非技术观众,例如营销团队或者业务主管。你需要用一种简单并且易于理解的方式来传达结果。利益相关者应该能够根据你的汇报得出一个可实行的方案。

但是当你传达你得出的结果的时候,你脑中最重要事情是什么呢?

  1. 了解你的观众说他们能听懂的语言

你应该了解你的听众并说他们的语言。例如,您正在向足球迷展示EPL冠军的预测。他们不了解你所使用的统计数据,但他们可以弄懂你是如何按步骤来判断冠军的。

  1. 关注价值和结果

你应该关注数据的价值和结果。你的雇主可能对你如何获取数据不感兴趣,但是对你从何处得到数据感兴趣。可信数据源的使用可以帮助你建立对你的预测结果的自信心。

  1. 传达假设和限制

你应该清楚地传达你的预测中重要的假设和存在的限制。例如,要计算球队的整体评分,您假设所有团队的队形为3–4–3–1。向雇主汇报的时候这是非常重要的。

尽管我们的目标是预测冠军,但是也可能有其他相关的重要发现。例如,哪个球队有最好的进攻、中场、防守和守门员。基于球员水平得出联盟每个位置最好的球员。例如用图片、图表和数字的形式统一展现所有数据,这也叫做仪表盘。你可以使用Excel来创建仪表盘。

现在,轮到你了。像数据科学家一样发现并解决问题。

祝你学习愉快!

来源和参考文献

  1. Intro to Data Science
  2. Premier League Stats
  3. Wikipedia: Data Science

你可能感兴趣的:([翻译]数据科学简介——预测EPL冠军的分步教程)