M-Competition历史你值得一读

Makridakis竞赛(又称M竞赛或M-Competitions)是由预测研究员Spyros Makridakis领导的团队组织的一系列公开竞赛,旨在评估和比较不同预测方法的准确性。更多请点击Makridakis Competitions

1. 它的存在有点感动

第一届M始于1982,比赛至今已有5届了,时间久远令感神圣,持续研究与发现的精神令人敬畏,可以算是神圣的M。

  • 由于M的存在,开创了很多新的算法,像M3的Theta method ,再如M4的Slawek Smyl’s Hybrid Exponential smoothing neural network method
  • 每一届均是真实的数据,其实验方案可用于测试真实的业务。
  • 来自世界各地的挑战与方法交流。

2. 第一次真正的预测比赛

1982年第一次竞赛。
1982年举办的第一届Makridakis竞赛,在预测文献中被称为M-竞赛,使用了1001个时间序列和15种预测方法(另外还包括这些方法的9种变体)根据作者后来的一篇论文,M-竞赛的主要结论如下:。

  • 在统计上先进或复杂的方法不一定比简单的方法提供更准确的预测。
  • 各种方法性能的相对排名根据所使用的准确性衡量标准而有所不同。
  • 各种方法结合起来时的准确度,平均而言,超过了被结合的单个方法,与其他方法相比,表现非常好。
  • 各种方法的准确性取决于所涉及的预测范围的长度。

通过其他研究者使用新的方法,研究结果已经得到了验证和推广。

这是Rob J. Hyndman在他的关于 "时间序列预测比赛简史 “的论文中对第一届M大赛的评价。” 任何人都可以提交预测,据我所知,这是第一次真正的预测比赛。

Newbold(1983)对M竞争提出了批评,他反对用单一竞争来试图解决复杂问题的一般想法。

2.1 来自统计学家的批评

在第一次M-Competition之前,Makridakis和Hibon[12]在《皇家统计学会杂志》(JRSS)上发表了一篇文章,表明简单的方法与较复杂的、统计学上复杂的方法相比表现良好。当时的统计学家批评了这些结果,声称这些结果是不可能的。他们的批评促使了后来的M、M2和M3竞赛,毫无疑问地证明了Makridakis和Hibon研究的结果。

3. 来自《国际预测杂志》的邀请

1993年第二次竞赛。
相隔11年,来到了第二次竞赛,称为M-2竞赛或M2竞赛,规模更大。在《国际预测杂志》上发布了参加比赛的呼吁,在国际预测研讨会上发布了通知,并向所有已知的各种时间序列方法的专家发出了书面邀请。与四家公司合作组织了M2-Competition,包括六个宏观经济序列,并且是实时进行的。数据来自美国,竞赛结果发表在1993年的一篇论文中。据称,竞赛结果与M竞赛的结果在统计上是相同的。

M2-竞争使用的时间序列比最初的M-竞争少得多。原先的M-竞争使用了1001个时间序列,而M2-竞争只使用了29个,其中包括来自四家合作公司的23个序列和6个宏观经济序列。 M2-竞争的目的是在以下方面更好地模拟真实世界的预测:

  • 允许预测者将其基于趋势的预测方法与个人判断相结合。
  • 允许预测者提出更多的问题,要求相关公司提供数据,以便做出更好的预测。
  • 允许预测者从一次预测活动中学习,并根据反馈意见修改下一次预测活动的预测。

本次竞赛的组织形式如下:。

  • 第一批数据于1987年夏季发给参加预测的人员。
  • 预报员可以选择通过中间人与有关公司联系,以收集他们认为与预测有关的补充资料。
  • 1987年10月,预报员收到了最新数据。
  • 预报员必须在1987年11月底之前提交预测。
  • 一年后,预报员收到一份对其预报的分析报告,并被要求在1988年11月提交下一次预报。
  • 从1991年4月开始,当合作公司知道包括1990年12月在内的数据的实际最终值时,对预测进行最后分析和评估。

除了公布的结果外,许多参赛者还写了短文,描述他们参加竞赛的经历和对竞赛所展示的内容的思考。克里斯-查特菲尔德称赞了竞赛的设计,但他说,尽管组织者尽了最大努力,但他认为预测者仍然没有像他认为人们在现实世界的预测中那样,有足够的机会从内部接触公司。 菲尔德斯和马克里达基斯(1995)认为,尽管这些竞赛产生了证据,但其意义仍然被理论统计学家所忽视。

4. 标准的M3

2000年第三次竞赛。
第三次竞赛被称为M-3竞赛或M3竞赛,旨在通过加入更多的方法和研究人员(特别是神经网络领域的研究人员)和更多的时间序列,既复制又扩展M竞赛和M2竞赛的特点,共使用了3003个时间序列。记录比赛结果的论文发表在2000年的《国际预测杂志》上,原始数据也在国际预测者协会的网站上公布,据作者介绍,M3-比赛的结论与前几次比赛的结论相似。

时间序列包括年、季、月、日和其他时间序列。为了确保有足够的数据来开发准确的预测模型,对观测值的数量设置了最低阈值。年序列为14个,季度序列为16个,月序列为48个,其他序列为60个。

时间序列涉及以下领域:微观、行业、宏观、金融、人口、其他。

用来评价不同预报准确度的5个措施是:对称平均绝对百分比误差(又称对称MAPE)、平均排名、对称绝对百分比误差中位数(又称对称APE中位数)、较好百分比和RAE中位数。

其他一些论文也发表了对M3-Competition数据集的不同分析,据《国际预测杂志》(IJF)主编Rob J. Hyndman介绍:“自2000年以来,M3数据一直被继续用于测试新的时间序列预测方法。事实上,除非所提出的预测方法与原有的M3参与方法相比具有竞争力,否则很难在IJF上发表”。

5. ML和统计方法融合之战

2000年第四次竞赛。
M大赛引起了学术界和从业人员的极大兴趣,为预测各种感兴趣的变量提供了最合适的方法的客观证据。第四届大赛M4于2017年11月公布,大赛于2018年1月1日开始,2018年5月31日结束。初步结果于2018年6月21日发表在《国际预测杂志》上 。

M4扩展和复制了前三次竞赛的结果,使用了一套扩展和多样化的时间序列,以确定不同类型预测的最准确预测方法。它的目的是获得关于如何提高预测准确性的答案,并确定最适合每种情况的方法。为了得到精确而有说服力的答案,M4大赛利用了10万个真实的序列,并融合了所有主要的预测方法,包括基于人工智能(机器学习,ML)的方法,以及传统的统计方法。

Rob J. Hyndman在他的博客中对M4说。"由Spyros Makridakis组织的 "M “竞赛对预测领域产生了巨大的影响。他们将注意力集中在什么模型能产生好的预测上,而不是这些模型的数学特性上。为此,Spyros通过这一系列竞赛改变了预测研究的格局,值得祝贺。”

为了确保有足够的数据来开发一个准确的预测模型,为观测次数设定了最低阈值。年度13个,季度16个,月度42个,周度80个,日度93个,小时序列700个。

其主要目的之一是比较ML方法与统计方法的准确性,并实证ML方法性能优越的说法。

M4大赛除了点位预测,还包括指定预测区间(PI)了。M4是一个公开赛,其最重要的目标(与前三届M大赛的目标相同)。“学习如何提高预测的准确性,并尽可能地推动这个领域的发展”。这与其他比赛不同,如Kaggle组织的比赛,实际上是一场 “赛马”,目的是确定最准确的预测方法,而不试图发现其中的原因,以便能够在未来提高预测性能。

M4的五大发现和结论。

  • 方法的组合是M4的王道。在17种最准确的方法中,有12种是以统计方法为主的 “组合”。
  • 然而,最大的惊喜是一种同时利用统计和ML特征的 "混合 "方法。这种方法,产生了最准确的预测以及最精确的 PIs,由 Uber Technologies 的数据科学家 Slawek Smyl 提交。根据sMAPE,它比大赛的组合(Combination)基准(见下文)的准确率高出近10%(巨大的进步)。据悉,在M3竞赛中(Makridakis & Hibon,2000),最好的方法比同样的Combination准确率高4%。
  • 第二种最准确的方法是七种统计方法和一种ML方法的组合,平均法的权重由ML算法计算,该算法经过训练,通过保持测试使预测误差最小化。这种方法是由西班牙的A Coruña大学和澳大利亚的Monash大学联合提交的。
  • 第一种和第二种最准确的方法也取得了惊人的成功,正确指定了95%的PI。这是我们所知道的第一个做到这一点的方法,而且不会大大低估不确定性。
    M4中提交的6种纯ML方法表现不佳,没有一种比Comb更准确,只有一种比Naïve2更准确。这些结果与发表在PLOS ONE上的一项研究结果一致(Makridakis,等人,2018)。

从上述研究结果得出的结论是,单个统计方法或ML方法的准确率较低,为了提高预测准确率,使预测更有价值,混合方法和组合方法是未来的方向。
M4中提交的5种机器学习(ML)方法表现不佳,没有一种方法比统计基准更准确,只有一种方法比Naïve 2更准确,这一结论与2018年3月底发表在PLOS ONE上的一篇论文一致。

6. 期待M5大会

2020年第五次竞赛。

M5是M大赛中最新的一项,已经结束。它将使用沃尔玛的真实数据,并将在Kaggle的平台上运行。它将为获奖者提供总额为10万美元的丰厚奖金。这些数据由沃尔玛提供,由大约10万个分层的每日时间序列组成,从SKU级别开始,到某个大的地理区域的总需求结束。除了销售数据外,还有关于价格、广告/促销活动和库存水平的信息,以及数据所指的星期几。

M5预测会议,将于2020年12月在纽约举行,届时将介绍其结果,同时说明最准确的方法和公司,并就如何将从竞赛中学到的东西应用于其他公司提出建议。最后,《国际预测杂志》还将专门为M5大赛/会议出版一期特刊,重点介绍如何将学到的知识传播给更多的人。除了描述最佳方法的论文外,还将刊登从业人员和学者的文章、评论和关于如何改进未来竞争的建议。

总而言之,我从M上看到了,预测从统计方法向传统机器学习再向深度学习的扩展,预测从单一模型向多模融合的趋势。

更多内容请点击Makridakis Competitions

你可能感兴趣的:(比赛)