Makridakis竞赛(又称M竞赛或M-Competitions)是由预测研究员Spyros Makridakis领导的团队组织的一系列公开竞赛,旨在评估和比较不同预测方法的准确性。更多请点击Makridakis Competitions
第一届M始于1982,比赛至今已有5届了,时间久远令感神圣,持续研究与发现的精神令人敬畏,可以算是神圣的M。
1982年第一次竞赛。
1982年举办的第一届Makridakis竞赛,在预测文献中被称为M-竞赛,使用了1001个时间序列和15种预测方法(另外还包括这些方法的9种变体)根据作者后来的一篇论文,M-竞赛的主要结论如下:。
通过其他研究者使用新的方法,研究结果已经得到了验证和推广。
这是Rob J. Hyndman在他的关于 "时间序列预测比赛简史
“的论文中对第一届M大赛的评价。” 任何人都可以提交预测,据我所知,这是第一次真正的预测比赛。
Newbold(1983)对M竞争提出了批评,他反对用单一竞争来试图解决复杂问题的一般想法。
在第一次M-Competition之前,Makridakis和Hibon[12]在《皇家统计学会杂志》(JRSS)上发表了一篇文章,表明简单的方法与较复杂的、统计学上复杂的方法相比表现良好。当时的统计学家批评了这些结果,声称这些结果是不可能的。他们的批评促使了后来的M、M2和M3竞赛,毫无疑问地证明了Makridakis和Hibon研究的结果。
1993年第二次竞赛。
相隔11年,来到了第二次竞赛,称为M-2竞赛或M2竞赛,规模更大。在《国际预测杂志》上发布了参加比赛的呼吁,在国际预测研讨会上发布了通知,并向所有已知的各种时间序列方法的专家发出了书面邀请。与四家公司合作组织了M2-Competition,包括六个宏观经济序列,并且是实时进行的。数据来自美国,竞赛结果发表在1993年的一篇论文中。据称,竞赛结果与M竞赛的结果在统计上是相同的。
M2-竞争使用的时间序列比最初的M-竞争少得多。原先的M-竞争使用了1001个时间序列,而M2-竞争只使用了29个,其中包括来自四家合作公司的23个序列和6个宏观经济序列。 M2-竞争的目的是在以下方面更好地模拟真实世界的预测:
本次竞赛的组织形式如下:。
除了公布的结果外,许多参赛者还写了短文,描述他们参加竞赛的经历和对竞赛所展示的内容的思考。克里斯-查特菲尔德称赞了竞赛的设计,但他说,尽管组织者尽了最大努力,但他认为预测者仍然没有像他认为人们在现实世界的预测中那样,有足够的机会从内部接触公司。 菲尔德斯和马克里达基斯(1995)认为,尽管这些竞赛产生了证据,但其意义仍然被理论统计学家所忽视。
2000年第三次竞赛。
第三次竞赛被称为M-3竞赛或M3竞赛,旨在通过加入更多的方法和研究人员(特别是神经网络领域的研究人员)和更多的时间序列,既复制又扩展M竞赛和M2竞赛的特点,共使用了3003个时间序列。记录比赛结果的论文发表在2000年的《国际预测杂志》上,原始数据也在国际预测者协会的网站上公布,据作者介绍,M3-比赛的结论与前几次比赛的结论相似。
时间序列包括年、季、月、日和其他时间序列。为了确保有足够的数据来开发准确的预测模型,对观测值的数量设置了最低阈值。年序列为14个,季度序列为16个,月序列为48个,其他序列为60个。
时间序列涉及以下领域:微观、行业、宏观、金融、人口、其他。
用来评价不同预报准确度的5个措施是:对称平均绝对百分比误差(又称对称MAPE)、平均排名、对称绝对百分比误差中位数(又称对称APE中位数)、较好百分比和RAE中位数。
其他一些论文也发表了对M3-Competition数据集的不同分析,据《国际预测杂志》(IJF)主编Rob J. Hyndman介绍:“自2000年以来,M3数据一直被继续用于测试新的时间序列预测方法。事实上,除非所提出的预测方法与原有的M3参与方法相比具有竞争力,否则很难在IJF上发表”。
2000年第四次竞赛。
M大赛引起了学术界和从业人员的极大兴趣,为预测各种感兴趣的变量提供了最合适的方法的客观证据。第四届大赛M4于2017年11月公布,大赛于2018年1月1日开始,2018年5月31日结束。初步结果于2018年6月21日发表在《国际预测杂志》上 。
M4扩展和复制了前三次竞赛的结果,使用了一套扩展和多样化的时间序列,以确定不同类型预测的最准确预测方法。它的目的是获得关于如何提高预测准确性的答案,并确定最适合每种情况的方法。为了得到精确而有说服力的答案,M4大赛利用了10万个真实的序列,并融合了所有主要的预测方法,包括基于人工智能(机器学习,ML)的方法,以及传统的统计方法。
Rob J. Hyndman在他的博客中对M4说。"由Spyros Makridakis组织的 "M “竞赛对预测领域产生了巨大的影响。他们将注意力集中在什么模型能产生好的预测上,而不是这些模型的数学特性上。为此,Spyros通过这一系列竞赛改变了预测研究的格局
,值得祝贺。”
为了确保有足够的数据来开发一个准确的预测模型,为观测次数设定了最低阈值。年度13个,季度16个,月度42个,周度80个,日度93个,小时序列700个。
其主要目的
之一是比较ML方法与统计方法的准确性,并实证ML方法性能优越的说法。
M4大赛除了点位预测,还包括指定预测区间(PI)了。M4是一个公开赛,其最重要的目标
(与前三届M大赛的目标相同)。“学习如何提高预测的准确性,并尽可能地推动这个领域的发展”。这与其他比赛不同,如Kaggle组织的比赛,实际上是一场 “赛马”,目的是确定最准确的预测方法,而不试图发现其中的原因,以便能够在未来提高预测性能。
M4的五大发现和结论。
从上述研究结果得出的结论是,单个统计方法或ML方法的准确率较低,为了提高预测准确率,使预测更有价值,混合方法和组合方法是未来的方向。
M4中提交的5种机器学习(ML)方法表现不佳,没有一种方法比统计基准更准确,只有一种方法比Naïve 2更准确,这一结论与2018年3月底发表在PLOS ONE上的一篇论文一致。
2020年第五次竞赛。
M5是M大赛中最新的一项,已经结束。它将使用沃尔玛的真实数据,并将在Kaggle的平台上运行。它将为获奖者提供总额为10万美元的丰厚奖金。这些数据由沃尔玛提供,由大约10万个分层的每日时间序列组成,从SKU级别开始,到某个大的地理区域的总需求结束。除了销售数据外,还有关于价格、广告/促销活动和库存水平的信息,以及数据所指的星期几。
M5预测会议,将于2020年12月在纽约举行,届时将介绍其结果,同时说明最准确的方法和公司,并就如何将从竞赛中学到的东西应用于其他公司提出建议。最后,《国际预测杂志》还将专门为M5大赛/会议出版一期特刊,重点介绍如何将学到的知识传播给更多的人。除了描述最佳方法的论文外,还将刊登从业人员和学者的文章、评论和关于如何改进未来竞争的建议。
总而言之,我从M上看到了,预测从统计方法向传统机器学习再向深度学习的扩展,预测从单一模型向多模融合的趋势。
更多内容请点击Makridakis Competitions