大Y老师:小X,你做的这个时间序列模型用什么指标评价啊?
小X 直接把这篇甩给老师:老师您看哪个指标顺眼,就选哪个指标~
最近在实现基于深度学习的时间序列模型时,需要对模型进行评价,总结了一些常用的和不常用的评价指标,还有相关概念的辨析。
上面是玩笑话,在对模型进行评价时,要根据实际的数据特征和指标特性进行选择。
SSE(the sum of squares due to error),是观测值(observed values)与预测值(predicted values)的误差的平方和,公式为:
S S E ( y , y ^ ) = ∑ i = 1 n ( y i − y ^ i ) 2 SSE(y,\widehat{y})=\sum_{i=1}^{n}(y_{i}-\widehat{y}_{i})^{2} SSE(y,y )=i=1∑n(yi−y i)2
MSE(mean squared error),是观测值(observed values)与预测值(predicted values)的误差的平方和的均值,即SSE/n。它是误差的二阶矩,包含估计量的方差(variance)及其偏差(bias),是衡量估计量质量的指标,其公式为:
M S E ( y , y ^ ) = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE(y,\widehat{y})=\tfrac{1}{n}\sum_{i=1}^{n}(y_{i}-\widehat{y}_{i})^{2} MSE(y,y )=n1i=1∑n(yi−y i)2
RMSE(root mean squared error),也称作RMSD(root mean square deviation),是MSE的算数平方根。由于每个误差(each error)对RMSD的影响与误差的平方(squared error)成正比,因此较大的误差会对RMSE影响过大,RMSE对异常值很敏感。其公式为:
R M S E ( y , y ^ ) = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 RMSE(y,\widehat{y})=\sqrt{\tfrac{1}{n}\sum_{i=1}^{n}(y_{i}-\widehat{y}_{i})^{2}} RMSE(y,y )=n1i=1∑n(yi−y i)2
MAE(mean absolute error),是时间序列分析中预测误差常用的指标,由于MAE使用的是与被测数据相同的尺度(scale),因此不能用于比较两个不同尺度的序列。MAE又被称为L1范数损失函数(就是可以做为损失函数),是真实数据与预测数据之差的绝对值的均值。
公式为:
M A E ( y , y ^ ) = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ MAE(y,\widehat{y})=\tfrac{1}{n}\sum_{i=1}^{n}\left | y_{i}-\widehat{y}_{i}\right | MAE(y,y )=n1i=1∑n∣yi−y i∣
MAPE(mean absolute percentage error),也被称为MAPD(mean absolute percentage deviation),是一种衡量预测方法的预测准确性的指标。MAPE在解释相对误差(relative error)方面非常直观,在评价模型时MAPE通常用作回归(regression)问题的损失函数(loss function)。
从式子中可以看出,在计算MAPE时如果出现一系列特别小的分母,可能会出现一些问题。比如分母为0的奇异点、较小的误差引起结果发生非常大的变化等。
解决这个问题的替代方案,可以将公式中的实际值,替换为该序列的所有实际值的平均值。这种方案等效于求绝对差的总和除以实际值的总和,也被称为加权绝对百分比误差(WAPE),或者wMAPE(weighted mean absolute percentage error)。
公式为:
M A P E ( y , y ^ ) = 100 % n ∑ i = 1 n ∣ y i − y ^ i y i ∣ MAPE(y,\widehat{y})=\tfrac{100\% \displaystyle }{n}\sum_{i=1}^{n}\left | \frac{y_{i}-\widehat{y}_{i}}{y_{i}}\right | MAPE(y,y )=n100%i=1∑n∣∣∣∣yiyi−y i∣∣∣∣
SMAPE(symmetric mean absolute percentage error),实际值与预测值差值的绝对值除以实际值与预测值绝对值之和的一半。公式为:
S M A P E ( y , y ^ ) = 100 % n ∑ i = 1 n ∣ y i − y ^ ∣ ∣ ∣ y i ∣ + ∣ y ^ i ∣ 2 ∣ SMAPE(y,\widehat{y})=\frac{100\%}{n}\sum_{i=1}^{n}\frac{\left | y_{i}-\widehat{y}\right |}{\left | \frac{\left |y_{i} \right | + \left |\widehat{y}_{i}\right |}{2}\right |} SMAPE(y,y )=n100%i=1∑n∣∣∣2∣yi∣+∣y i∣∣∣∣∣yi−y ∣
MSLE(mean squared log error),公式为:
M S L E ( y , y ^ ) = 1 n ∑ i = 1 n ( l o g ( 1 + y i ) − l o g ( 1 + y ^ i ) ) 2 MSLE(y,\widehat{y})=\frac{1}{n}\sum_{i=1}^{n}\left ( log(1+y_{i})-log(1+\widehat{y}_{i})\right )^{2} MSLE(y,y )=n1i=1∑n(log(1+yi)−log(1+y i))2
MAD(median absolute deviation),是数据点到中位数的差值的绝对值再取中位数,MAD通常用于统计数据离差(dispersion)。对于MAD来说,少量的异常值不会影响最终结果。
公式为:
M A D ( y , y ^ ) = m e d i a n ( ∣ y 1 − y ^ 1 ∣ , . . . , ∣ y n − y ^ n ∣ ) MAD(y,\widehat{y})= median(\left | y_{1} - \widehat{y}_{1}\right |,...,\left | y_{n} - \widehat{y}_{n}\right |) MAD(y,y )=median(∣y1−y 1∣,...,∣yn−y n∣)
论文中常用的指标:
SSMI(structural similarity ),用于衡量两幅图像的相似度,公式为:
S S I M ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 ) SSIM(x,y)= \frac{(2\mu_{x}\mu_{y} + C_{1})(2\sigma_{xy} + C_{2})}{(\mu_{x}^{2}+\mu_{y}^{2}+C_{1})(\sigma _{x}^{2}+\sigma _{y}^{2}+C_{2})} SSIM(x,y)=(μx2+μy2+C1)(σx2+σy2+C2)(2μxμy+C1)(2σxy+C2)
其中x为预测图像的像素值,y为真实图像的像素值。为的均值,为的均值, 2为的方差, 2为的方 差, 为和的协方差,1 、2 是像素值的动态范围。SSIM的范围为0~1,值越大说明两幅图像越相似。
CSI(critical success index),公式为:
C S I = a a + b + c CSI=\frac{a}{a+b+c} CSI=a+b+ca
POD(probability of detection),公式为:
P O D = a a + c POD=\frac{a}{a+c} POD=a+ca
FAR(false alarm rate),公式为:
F A R = b a + b FAR=\frac{b}{a+b} FAR=a+bb
其中:
a为命中数,即预测值与实际值均大于判别阈值的数量。
b为空报数,即预测值大于判别阈值而实际值小于判别阈值。
c为漏报数,即预测值小于判别阈值而真实值大于判别阈值。
Variance,用于衡量随机变量离散程度的度量,是各样本数据与平均值之差的平方和的均值。公式为:
V a r = 1 n ∑ i = 1 n ( x i − μ ) 2 Var=\frac{1}{n}\sum_{i=1}^{n}\left ( x_{i}-\mu\right )^{2} Var=n1i=1∑n(xi−μ)2
其中,xi为变量,为总体均值,n为样本总数。
SD(standard deviation),又称均方差,是方差的平方根,公式为:
S D = 1 n ∑ i = 1 n ( x i − μ ) 2 SD= \sqrt{\frac{1}{n}\sum_{i=1}^{n}\left ( x_{i}-\mu\right )^{2}} SD=n1i=1∑n(xi−μ)2
1.标准差就是均方差,不是均方误差。
2.方差与均方误差形式上接近,但概念不同。方差是样本数据与样本平均值差值的平方和的均值。均方误差是预测数据与真实数据差值的平方和的均值。
3.同样,标准差与均方根误差形式上接近,但概念不同。