论文题目:The M4 Competition: 100,000 time series and 61 forecasting methods
中文题目:
论文链接:
论文代码:
论文团队:
发表时间:
DOI:
引用:
引用数:
M4竞赛延续了前三届M竞赛,其目的是从经验证据中学习如何提高预测精度,以及如何利用这种学习来推进预测的理论和实践。 M4的目的是通过以下方式复制和扩展前三届比赛:(a)显著增加系列的数量,(b)扩大预测方法的数量,©在评估过程中包括预测间隔和点预测。 本文详细介绍了M4的各个方面,包括它的组织和运行、结果的介绍、总体上和按类别划分的最优秀的方法、它的主要发现及其含义,以及各种方法的计算要求。 最后,总结了该系列的主要结论,并期望该系列将成为评价新方法和改进预测实践的试验场,同时也提出了该领域的一些前进方向。
本文对最近的M竞赛M4进行了详细的描述。 它介绍了它的结果,讨论了它的发现,并陈述了它的结论。 此外,还探讨了它对预测理论和实践的影响,并概述了一些未来的发展方向。 Hyndman(2019)优秀的预测比赛历史阐明了它们的好处和它们对预测领域的贡献,所以我们不需要再做任何补充,除了同意他的结论并感谢他在M4的所有阶段以及在设计和实现这一期特刊方面所提供的大量支持。
M4竞赛的一个主要创新是在完成前两个多月预测/假设其结果。 我们的十个预测/假设。 是我们对这些发现的期望的明确陈述,而不是在后Hoc推理中使其结果合理化。 我们现在已经在一篇单独的论文中评估了这十个预测/假设(Makridakis,Spiliotis&Assimakopoulos,2019),我们很高兴地说,在之前做出的十个预测/假设中,我们至少有六个是完全正确的。 此外,我们已经解释了哪里出错了,哪里是部分正确的,哪里需要额外的信息来证实我们的主张。
M4的另一项创新是任命了客座编辑Fotios Petropoulos来监督这一特刊,并确保客观性和公正性。 虽然他与Rob J.Hyndman和Spyros Makridakis就这一问题达成了某些决定,如其结构和长度,以及邀请的论文和评论的数量和内容,但关于这一问题和提交的所有其他论文的最终决定完全由客座编辑做出。 他的社论《彼得罗普洛斯和马克里达基斯》(2019)描述了邀请论文的标准、审查过程和设定的截止日期。 此外,还商定,这份文件将与其他所有文件一起,在发表之前进行定期审查。 Makridakis和Petropoulos(2019)总结了本特刊,而Makridakis、Hyndman和Petropoulos(2019)总结了社会科学预测的艺术现状,讨论了其成就和局限性,并对其未来前景进行了深思熟虑。
本论文由三个主要部分和五个附录组成,这些附录可在网上查阅作为补充材料。 第一部分介绍了M4竞赛的背景、组织和运行情况
。 第二部分介绍了竞赛的结果
,包括其主要发现及其影响,以及在总体上和各个子类别中表现最好的方法,包括数据频率和应用领域。 此外,它还评论了提交给M4的纯机器学习(ML)方法的低精度,并提供了各种性能度量的总结图和表,包括显示应用一种方法所需的计算时间与其预测精度的图。 最后一部分对全文进行了总结,强调了竞赛的结论,并提出了我们的建议,即M4的10万个序列应该成为指导进一步理论和实践发展的试验场,作为一个巨大的时间序列样本,在此基础上可以评估新的预测方法的性能。 最后,五个附录提供了全面的表格和图表,说明总体结果以及各个子类别,包括关于所使用的基准和参与方法在每个预测范围、频率和领域中取得的预测效果的信息,包括点预测和预测间隔。
多年来,预测竞赛极大地影响了预测领域,为评估不同的外推方法和经验学习如何推进预测理论和实践提供了坚实的基础(Hyndman,2019)。 每次预测比赛都引入了一些新的特征或数据,同时试图解决以前预测比赛可能存在的局限性,或者侧重于特定的应用领域,如能源和旅游。 M4还涉及一些新的特点,可概括如下:(i)引入高频数据(每周、每天和每小时)以及低频数据(每年、每季度和每月); (ii)审议项目投资计划和项目财务报告; ㈢强调结果的可重复性; 最后,(iv)大量不同系列和基准的合并。 除了引入这些功能之外,M4的动机是新的比赛也倾向于揭示创新的方法,这些方法可以在完全未知的系列集上与现有的方法进行测试。 这一点非常重要,因为近20年来,以前的M竞争对手M3一直被用作比较的标准基准,这意味着新提出的方法最终可能会超过其公布的测试样本。 从我们的角度来看,M4激发了前沿方法的发展,并提供了一个新的、更大的、因此更难过度拟合的数据集,从而帮助研究人员和实践者更详细地探索和重新评估预测方面的最佳实践。
M4竞赛最初于2017年11月初宣布,首先在尼科西亚大学的网站(www.unic.ac.cy)上,然后在IIF的博客(www.forecasters.org)和罗布·J·海德曼的博客(www.robjhyndman.com)上。 此外,还向所有参加过前几届M比赛的人发送了邀请电子邮件(Makridakis,Andersen,Carbone,Fildes,Hibon,et al.,1982; Makridakis,Chatfield,Hibon,Lawrence,Mills等人,1993年; Makridakis&Hibon,2000),旅游预测竞赛(Athanasopoulos,Hyndman,Song,&Wu,2011),NN3竞赛(Crone,Hibon,&Nikolopoulos,2011)和最近的国际预测研讨会(ISF)事件,以及在国际预测杂志和其他著名的预测、神经网络和机器学习杂志上发表过相关文章的人(Foresight:国际应用预测杂志、预测杂志、技术预测和社会变革、专家系统与应用、神经网络和神经计算)。 数据于12月31日公布,最初在M4网站(www.m4.unic.ac.cy),后来通过M4COMP2018 R包(Montero-Manso,Netto&Talagala,2018)和M4 GitHub存储库(www.github.com/m4competition)公布。 比赛于2018年5月31日午夜结束。 2018年6月20日,一篇关于M4初步结果的简短论文发表在《国际预测杂志》(Makridakis,Spiliotis,&Assimakopoulos,2018b)上,该论文在美国科罗拉多州博尔德举行的ISF会议期间由爱思唯尔慷慨捐助,作为开放获取文章提供。
与前三届M比赛一样,M4是公开比赛,目的是确保公平客观。 此外,为了促进预测研究的可复制性
,并促进该领域未来的工作(Makridakis,Assimakopoulos,&Spiliotis,2018),鼓励参与者向M4 GitHub存储库提交他们方法的代码以及详细描述
。 声称拥有所有权的参赛者(例如软件供应商)不必公开他们的代码,而是向竞赛组织者提供他们程序的一个版本,以便他们评估其可复制性和衡量其计算复杂性
。 表7列出了提交的方法,并显示了成功复制的方法以及复制的范围。
比赛规则、奖品和其他细节都可以在M4网站上获得。 为了让参赛者有资格获得奖品,他们必须提供PFS和可选的PIs,用于表1所示的所有10万个比赛系列。 数据集被细分为六个数据频率和六个应用领域,除了计算总体平均数之外,还对每个子类别的PFS和PIS进行了评估。 因此,正文和附录中的各种表格显示了PFS(附录A)和PIS(附录B)在不同数据频率和预测水平下的总体精度,而附录C列出了PFS和PIS在不同频率和领域中的最佳执行方法。 附录D显示了comb(单、霍尔特和阻尼指数平滑的简单算术平均值)比PFS的其他方法更准确的时间序列的百分比(图D.1),以及Nairve1比PIS更准确的时间序列的百分比(·图)。 比赛中使用的基准在附录E中进行了分析说明。
应当指出,M4中使用的10万个时间序列是从雅典国立技术大学(NTUA)汇编的一个数据库(称为Foredeck)中挑选出来的,该数据库包含90万个连续的时间序列,这些数据来自多个、不同的和公开可访问的来源。 Foredeck强调商业预测应用,包括来自相关领域的系列,如工业、服务、旅游、进出口、人口统计、教育、劳动和工资、政府、家庭、债券、股票、保险、贷款、房地产、运输以及自然资源和环境(Spiliotis、Kouloumos、Assimakopoulos和Makridakis,2019)。
M4数据集创建于2017年12月28日,当时Makridakis教授选择了一个种子号来随机选择将用于M4的10万个时间序列的样本。 然后对选定的系列进行缩放,以防止负面观测和低于10的值,从而避免在计算各种误差测度时可能出现的问题。 缩放是通过简单地向序列添加一个常量来执行的,这样它们的最小值就等于10(整个数据集中出现了29次)。 此外,为了确保结果的客观性,任何可能导致识别原始系列的信息都被删除。 这包括该系列的开始日期,直到M4结束后,参与者才可以获得这些日期。
请注意,为每个频率和领域考虑的系列数量主要是根据一个公司或组织为它们所隐含的应用程序生成预测的可能性以及它们在运营和战略规划方面的重要性来确定的。 例如,在处理业务预测时,每月的预测比季度或年度的预测更频繁。 同样,微观和金融数据比人口数据更有可能用于支持决策。 关于M4是如何构建的细节可以在Spiliotis、Kouloumos等人的研究中找到。 (2019年),以及一些旨在促进未来预测竞赛设计的指导方针。
还应该提到的是,与以前的M比赛一样,M4数据集没有考虑低容量和间歇性的时间序列
。 这个选择背后的原因是,首先,M4与过去的M比赛的连续性; 第二,零值会引起的许多方法论问题; 第三,外推非连续级数所需的模型的显著不同性质。 因此,作者希望澄清,M4的调查结果指的是连续业务系列,这意味着其中一些可能不适用于小批量或间歇性系列。
M4竞赛的另一个显著创新是引入了各种基准
,包括统计基准和ML基准
。 自从最初的M竞赛以来,预测领域有了很大的进步,该竞赛得出结论,“更复杂或统计上复杂的方法不一定比更简单的方法更准确”,随着时间的推移,新的方法被提出来,显然被证明比更简单的方法更准确。 在这方面,竞赛组织者决定纳入十种基准方法,原因有二。 首先,评估M4提交在简单/标准方法上的改进,其次,通过将每个提交与不同的知名属性方法直接比较,能够确定改进的原因。 例如,Naève2(Makridakis,Wheelwright,&Hyndman,1998)只捕捉季节性,单指数平滑(DSES)捕捉水平(Gardner,1985),Holt(Gardner,2006)使用线性趋势进行外推,而Damped(Gardner,2006)顾名思义,抑制线性趋势。 因此,将提交的方法与基准进行比较,可以更好地发现导致改进预测的因素,例如最佳处理季节性或趋势的方法。 表2列出了M4中使用的十个基准,以及两个额外的比较标准:ETS(指数平滑;Hyndman,Koehler,Snyder,&Grose,2002)和(Auto)ARIMA(Hyndman&Khandakar,2008),由于它们在过去几年的预测研究中的广泛使用,以及在本次竞赛中被包括在内。 在这些基准中,我们决定使用COMB作为比较预测精度的单一基准
请注意,所介绍的基准测试包括两个纯ML基准测试:感知器和递归网络
。 这样做是为了进一步强调竞赛的目标,即在预测应用中评估最大似然模型方法,以及鼓励多种最大似然模型方法的参与。 这两个基准是由非常基本的架构组成的网络,针对每个系列分别进行培训,并利用典型的预处理选项,以避免限制参与者,并引发创新解决方案。
在比赛开始时,M4 GitHub存储库提供了生成和再现上述基准预测和比较标准的代码。 统计基准都是使用R(Hyndman,2017)的Forecast Package V8.2进行估计的,而ML基准是使用SCIKIT V0.19.1、Keras V2.0.9和TensorFlow V1.4.0库在Python中开发的。 Theta方法(Assimakopoulos&Nikolopoulos,2000)是一个例外,它是作为一个单独的R函数提供的(注意,没有一个基准有资格获奖)。 最后,提交的两个方法,即Spiliotis和Assimakopoulos和Legaki和Koutsouri的方法,也没有资格获奖,因为它们的作者与组织小组有关(这两个方法都是原始Theta的变体,目的是提高其准确性)。 有关基准的详细信息见附录E。
M4比赛于2018年1月1日开始,当时其数据集可以从M4网站下载。 关于比赛的规则和详细信息也发布在这个网站上(M4 Team,2018)。 任何希望参与的人都可以从M4站点、GitHub或M4Comp2018 R包中下载数据集。
如第2节所述,M4数据集由每年、每季度、每月和其他(每周、每天和每小时)的10万个时间序列组成,分为训练集和测试集。 训练集在比赛开始时提供给参赛者,而测试集在比赛结束前一直保密,直到比赛结束时,组织者才发布并使用它来评估提交的材料。 训练测验的最少观察次数为每年13次,每季度16次,每月42次,每周80次,每天93次,每小时700次。 值得一提的是,M4包含的序列平均比M3长得多,因此为需要大量数据进行正确训练的复杂方法提供了更多的机会。
与上一届M比赛一样,参赛者被要求在他们已获得的现有数据之外,做出以下数量的预测:6个年度、8个季度和18个月度系列。 此外,我们要求对周序列进行13次预报
,对日序列和小时序列分别进行14次和48次预报
。 预测范围是根据每一频率的数据在公司或组织内最有可能支持的决策的性质确定的。 例如,每年的数据通常用于支持未来一至五年的战略层面的长期决策。 另一方面,季度和月度预测通常用于预算目的,从几个月到两年不等。 最后,高频数据通常用于支持短期水平的操作,从几个小时到几个星期不等。
在预测文献中有许多方法可以用来评估预测方法的性能(Hyndman&Koehler,2006;Kim&Kim,2016)。 在以前的M比赛中,这些措施中的几个在没有任何关于每一个的优点和缺点的明确协议的情况下被使用(Goodwin&Lawton,1999)。 鉴于如此缺乏一致意见,我们决定使用两种最流行的准确性度量的平均值,称为总体加权平均值(OWA),认为这将有助于我们实现更高水平的客观性。 这些度量是对称平均绝对百分比误差(Smape;Makridakis,1993)和平均绝对标度误差(Mase;Hyndman&Koehler,2006)。
第一项指标
是过去用于评估M3竞赛提交的论文的指标,它使用百分比误差,这些误差与规模无关
,可以直观地理解,是日常词汇的一部分(例如,苹果股票的价值昨天增加了1.5%)。 第二个措施旨在纠正第一个措施的一些潜在问题,并提供一个具有更好数学性质的替代方案(Franses,2016)。 例如,所提出的MASE具有定义的均值和有限的方差,与尺度无关,并且可以在单个预测范围内计算,如果它来自于比在样本中计算的平均一步幼稚预测更好的预测,则小于一个,反之亦然。
这两个测度的计算公式如下:
s M A P E = 2 h ∑ t = n + 1 n + h ∣ Y t − Y t ^ ∣ ∣ Y t ∣ + ∣ Y t ^ ∣ ∗ 100 ( % ) sMAPE=\frac{2}{h}\sum_{t=n+1}^{n+h}\frac{\left|Y_{t}-\widehat{Y_{t}}\right|}{|Y_{t}|+\left|\widehat{Y_{t}}\right|}*100(\%) sMAPE=h2t=n+1∑n+h∣Yt∣+ Yt Yt−Yt ∗100(%)
M A S E = 1 h ∑ t = n + 1 n + h ∣ Y t − Y t ^ ∣ 1 n − m ∑ t = m + 1 n ∣ Y t − Y t − m ∣ , MASE=\frac1h\frac{\sum_{t=n+1}^{n+h}\left|Y_t-\widehat{Y_t}\right|}{\frac1{n-m}\sum_{t=m+1}^n\left|Y_t-Y_{t-m}\right|}, MASE=h1n−m1∑t=m+1n∣Yt−Yt−m∣∑t=n+1n+h Yt−Yt ,
其中 Y t Y_t Yt是时间序列在点t上的值, Y t ^ \widehat{Y_{\mathrm{t}}} Yt 是估计的预测,h是预测时域,n是样本中可用的数据点的数目,m是组织者为每个数据频率考虑的连续观测之间的时间间隔,即每月12次,每季度4次,每小时24次,每年、每周和每日数据各1次。 这一选择背后的原因是,对于每周、每日和每小时的数据来说,没有明显的季节性。 例如,并非所有年份都由52周组成,每日数据可能包括每周5次、6次或7次观测,这取决于所考虑的应用,每小时数据可能显示双(7天×24小时)甚至三(7天×24小时×12个月)季节性。 建议的M值简化了关于当前季节性的假设,并使M4与M3相匹配,因为后者的“其他”数据也被视为不是季节性的,尽管是每周和每天的频率。 组织者在比赛开始时宣布了M值,但他们强调了这样一个事实,即这些值只是为了估计MASE而假设的,参与者可以自由地考虑任何其他方法来生成他们的预测。
注意,M4中使用的Mase与Hyndman和Koehler(2006)提出的Mase不同,因为最初m被设置为等于1,而不管数据的频率如何。 因此,最初为衡量被检验方法(分子)的绝对误差而提出的基准(分母)是Naève1方法(随机游走)的样本内绝对误差。 我们决定使用Naèves而不是Naève1,因为我们认为这将是季节性系列的一个更具指示性的基准,因为它提供了一个更合理的缩放选项。
毫无疑问,Naève1可能是另一个具有类似性质的替代方案。 但是,由于没有唯一的方法来定义哪些序列是季节性的,或者估计季节性指数,所以我们更喜欢NaèveS而不是Naève2,这是因为没有唯一的方法来定义哪些序列是季节性的。 因此,使用Naève2作为MASE的基准可能会使结果的复制成为一个更加困难和复杂的过程。 相反,Naève S是直接的,易于计算,不需要任何假设或附加信息。
我们计算smape和mase的OWA,首先将它们的总价值除以对应的Naève2值,分别得到相对smape和相对mase,然后计算它们的简单算术平均值。 因此,如果方法X在100,000个M4序列中显示的Mase为1.6,smape为12.5%,而NAIVE 2显示的Mase为1.9,smape为13.7%,则方法X的相对Mase和smape分别等于1.6/1.9=0.84和12.5/13.7=0.91,导致OWA为(0.84+0.91)/2=0.88,这表明,在考虑Mase和smape的情况下,平均而言,所研究的方法比NAIVE 2高12%左右。 M4团队(2018)提供了OWA计算的详细数值示例。
请注意,SMAPE和MASE首先通过平均每个预测层的计算误差来估计每个序列,然后再次平均所有时间序列,以计算整个数据集的平均值。 另一方面,对于整个序列样本,在评估过程结束时只计算一次OWA。 因此,尽管OWA在本质上是相对的,但它比典型的相对测度和基于相对误差的测度更具指示性和稳健性。
还应该提到的是,naève2在估计OWA时比naèveS更受欢迎,尽管它的计算更复杂,因为naève2在时间序列预测中非常流行,通常比naèveS更准确,在过去的许多预测研究中被反复用作基准,并在以前的m竞争中被估计,从而使直接比较成为可能。
请注意,SMAPE和MASE的估计不同于以前M比赛中最初采用的估计,在以前M比赛中,为每个序列和预测水平计算的所有误差都被平均在一起。 例如,M3竞赛总共涉及37,014个错误,3870个涉及年度(645个系列的6个预测),6048个涉及季度(756个系列的8个预测),25,704个涉及月度(1428个系列的18个预测),1392个涉及其他(174个系列的8个预测)数据。 显然,涉及更多序列和更长预测水平的子集将对精度估计产生更大的影响。 这就是为什么M4首先在一个序列级别上对误差进行平均,从而对数据集中的所有序列进行平均加权。
我们不会假装所选择的措施是最合适的,我们肯定会期望对所选择的措施有不同的意见,甚至可能是强烈的反对意见。 事实上,文献中充满了充分的衡量标准,可以用来评价竞争的结果(Armstrong&Collopy,1992;Chen,Twycross,&Garibaldi,2017;Davydenko&Fildes,2013;Hyndman&Koehler,2006;Kolassa,2016)。 然而,我们确实认为,M4中使用的大样本序列减轻了使用不同误差度量对确定参与方法的最终等级的影响。 使用Smape的另一个原因是它与以前的M比赛的连续性,特别是在通过排除负值和小正值来减轻其主要缺点之后,仍然考虑其直观的日常解释/理解(例如,第4节根据报告的Smape值将M4与以前的M比赛进行比较)。 另一方面,MASE在现代预报文献中被广泛使用,它不受数据规模的影响,对异常值不太敏感,而且只有在所有历史观测结果相等的情况下才是无限或未定义的,这在实践中是不可能的。
M4比赛采用了95%的预测区间(PI)来估计点预测周围的不确定性。 之所以选择这个置信度,是因为它是商界最常用的置信度之一,因为对于大多数经济和金融预测应用来说,它既不太紧(例如99%)也不太宽(例如90%)。 没有考虑额外的水平,因为这将增加竞争的复杂性,要求对一个庞大的系列样本进行更多的估计,因此不鼓励参与。
使用Gneiting和Raftery(2007)的平均标度区间得分(MSIS)评估生成的PIs的性能,如下所示:
M S l S = 1 h × ∑ t = n + 1 n + h ( U t − L t ) + 2 a ( L t − Y t ) 1 Y t < L t + 2 a ( Y t − U t ) 1 Y t > U t 1 n − m ∑ t = m + 1 n ∣ Y t − Y t − m ∣ , \begin{aligned}MSlS&=\frac{1}{h}\\&\times\frac{\sum_{t=n+1}^{n+h}\left(U_t-L_t\right)+\frac{2}{a}(L_t-Y_t)1Y_t
其中 L t L_t Lt和 U t U_t Ut是预测区间的下界和上界, Y t Y_t Yt是序列的未来观察值,a是显著水平,1是指示函数(如果yt在假定区间内,则为1,否则为0)。 由于预报员被要求生成95%的预测间隔,因此a被设置为0.05。
下面的算法说明了MSIS在实际中是如何估计的,并强调了它用于比较两种不同预测方法产生的间隔的精度时的逻辑:
由于MSIS使用了一个复杂的公式来同时评估覆盖率和提交间隔的宽度,本研究还使用绝对覆盖差(ACD)作为PIS精度的补充度量; 然而,它并不参与确定竞争中最精确的PI,只参与检查和低估它们。 ACD简单地说就是方法的平均覆盖率和目标集之间的绝对差(这里是0.95)。 因此,如果竞赛的100,000个时间序列中的未来值在平均2%的时间(覆盖98%)内超出了由方法指定的界限,则ACD将为0.98-0.95=0.03。