初识Prophet模型(二)-- 应用篇

相关学习: 初识Prophet模型(一)--理论篇

7、Prophet 模型应用

7.0 背景描述

  • 该案例使用的是wiki网站日访问量(数值经过log处理)的csv数据文件
  • 描述的是美国著名橄榄球四分卫的维基页面浏览量,他是美国球员,一年里的周期规律会起很大作用,而一周里的周期规律也很明显。

7.1 导入数据

import pandas as pd
import numpy as np
from fbprophet import Prophet
import matplotlib.pyplot as plt
%matplotlib inline
df = pd.read_csv('data.csv')
df.head()
df.dtypes #检查下df的数据类型
df['ds'] = df['ds'].apply(pd.to_datetime)# ds列必须是pandas的datetime数据类型,使用pandas自带的pd.to_datetime将日期转为datetime类型
plt.rcParams['figure.figsize']=(20,10)
plt.style.use('ggplot')
df.set_index('ds').y.plot()

7.2 拟合模型

model = Prophet(daily_seasonality=True)
model.fit(df)

7.3 预测(使用默认参数)

  • 生成一个未来的日期的dataframe,然后用训练好的模型prophet来predict。
future = model.make_future_dataframe(periods=730)
future.tail()
  • 有了未来的日期,就可以使用学习到的趋势来预测未来日期的走势。

  • 预测的结果包括如下变量

'ds', 'trend', 'yhat_lower', 'yhat_upper', 'trend_lower', 'trend_upper',
       'additive_terms', 'additive_terms_lower', 'additive_terms_upper',
       'weekly', 'weekly_lower', 'weekly_upper', 'yearly', 'yearly_lower',
       'yearly_upper', 'multiplicative_terms', 'multiplicative_terms_lower',
       'multiplicative_terms_upper', 'yhat'
  • 我们只用 'ds', 'yhat', 'yhat_lower', 'yhat_upper'
forecast=model.predict(future)
forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].head()
print(fig1)

成分分析**

趋势是由不同的成分组成,比如总趋势、年、季节、月、周等等,我们要将这些成分从趋势中抽取出来看看不同成分的趋势情况

  • 预测的结果包括如下变量
'ds', 'trend', 'yhat_lower', 'yhat_upper', 'trend_lower', 'trend_upper',
       'additive_terms', 'additive_terms_lower', 'additive_terms_upper',
       'weekly', 'weekly_lower', 'weekly_upper', 'yearly', 'yearly_lower',
       'yearly_upper', 'multiplicative_terms', 'multiplicative_terms_lower',
       'multiplicative_terms_upper', 'yhat'
  • 下面图1是根据trend画出来的,图2是根据weekly画出来的,图3是根据yearly画出来的,图4是根据daily画出来的

  • 因为是加法模型,所以:

    • forecast['additive_terms'] = forecast['daily']+forecast['weekly'] + forecast['yearly'];
    • forecast['yhat'] = forecast['trend'] + forecast['additive_terms']
    • forecast['yhat'] = forecast['trend'] +forecast['daily']+ forecast['weekly'] + forecast['yearly']。
  • 如果有节假日因素,那么就会有:

    • forecast['yhat'] = forecast['trend'] +forecast['daily']+forecast['weekly'] + forecast['yearly'] + forecast['holidays']。
  • 对于那些是节假日的天数, forecast['holidays']才会有值

  • 不是节假日的天数,forecast['holidays']为0

  • 因为是加法模型,'multiplicative_terms', 'multiplicative_terms_lower', 'multiplicative_terms_upper'这3列为空。

因此,在下面的拆解图中,weekly中的Monday为0.3的意思就是,在trend的基础上,加0.3;Saturday为-0.3的意思就是,在trend的基础上,减0.3。因此,这条线的高低也在一定程度上反应了“销量的趋势“。

fig2 = model.plot_components(forecast)
print(fig2)
  • 第一幅趋势图里,可以看到按页面浏览量的总趋势。是因为作者最近退休,所以浏览量逐渐下降。
  • 第二幅按周的周期规律图里能看出,在比赛当天和赛后(周日和周一)访问量明显较高。
  • 美国NFL橄榄球比赛主要集中在九月到次年1月初,和二月初的超级碗。这也反映在第三幅图中,按年的周期规律图。
forecast_df = forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']]
df = pd.merge(df, forecast_df, on='ds', how='right')
df.set_index('ds').plot(figsize=(16,8), color=['royalblue', "green", "pink", "yellow"], grid=True);
x1 = forecast['ds']
y1 = forecast['yhat']
y2 = forecast['yhat_lower']
y3 = forecast['yhat_upper']
plt.plot(x1,y1)
plt.plot(x1,y2)
plt.plot(x1,y3)
plt.show()
print(forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].tail())

7.4 趋势突变点

自动检测变化点

  • 步骤:
    • 1、通过大量的速率改变的点检测变化点
    • 2、对这些点做稀疏先验
  • 默认情况下会检测出25个变化点,这些点均匀的分布在前80%的时间序列中
fig = model.plot(forecast)
for cp in model.changepoints:
    plt.axvline(cp, c='pink', ls='--', lw=2)
  • 因为稀疏先验,大部分的变化点并没有用到,看看每个变化点的速率变化图:
deltas = model.params['delta'].mean(0)
fig = plt.figure(facecolor='w', figsize=(10, 6))
ax = fig.add_subplot(111)
ax.bar(range(len(deltas)), deltas, facecolor='#0072B2', edgecolor='#0072B2')
ax.grid(True, which='major', c='gray', ls='-', lw=1, alpha=0.2)
ax.set_ylabel('Rate change')
ax.set_xlabel('Potential changepoint')
fig.tight_layout()
  • 变化点的数量可以通过参数n_changepoints指定,但最好还是通过调整正则化来修改
  • 看看比较明显的变化点
from fbprophet.plot import add_changepoints_to_plot
fig = model.plot(forecast)
a = add_changepoints_to_plot(fig.gca(), model, forecast) #虚线处为给定时间序列中的变点

调整趋势灵活性

  • 当趋势出现过拟合或者欠拟合的情况下,可以通过参数changepoint_prior_scale调整稀疏先验的程度,默认为0.05
  • 该参数值越大,则趋势越灵活
增大灵活性
m = Prophet(changepoint_prior_scale=0.5)
forecast = m.fit(df).predict(future)
fig = m.plot(forecast)
减少灵活性
forecast = m.fit(df).predict(future)
fig = m.plot(forecast)

指定变化点的位置

  • 通过参数changepoints手动指定位置,只有指定的这些点可以有速率变化
m = Prophet(changepoints=['2014-01-01'])
forecast = m.fit(df).predict(future)
fig = m.plot(forecast)

7.5季节性、假期效应和回归因子

假期和特殊事件建模

  • 要给假期或者其他重复事件建模,就需要创建一个包含holiday和ds列的DataFrame
  • 需要包含过去和将来所有的特殊日子,如果这些特殊日子没有出现在将来(要预测的日期),那预测就不会用到
  • 可以在这个数据框基础上再新建两列 lower_window 和 upper_window ,从而将节假日的时间扩展成一个区间 [ lower_window , upper_window ] ,例如:
    • 如果想将平安夜也加入到 “圣诞节” 里,就设置 lower_window = -1 , upper_window = 0 ;
    • 如果想将黑色星期五加入到 “感恩节” 里,就设置 lower_window = 0 , upper_window = 1
playoffs = pd.DataFrame({
  'holiday': 'playoff',
  'ds': pd.to_datetime(['2008-01-13', '2009-01-03', '2010-01-16',
                        '2010-01-24', '2010-02-07', '2011-01-08',
                        '2013-01-12', '2014-01-12', '2014-01-19',
                        '2014-02-02', '2015-01-11', '2016-01-17',
                        '2016-01-24', '2016-02-07']),
  'lower_window': 0,
  'upper_window': 1,
})
superbowls = pd.DataFrame({
  'holiday': 'superbowl',
  'ds': pd.to_datetime(['2010-02-07', '2014-02-02', '2016-02-07']),
  'lower_window': 0,
  'upper_window': 1,
})
holidays = pd.concat((playoffs, superbowls))

上面superbowl的日期也包含在playoff的日期中,也就是superbowl日期的影响会有个叠加效应

m = Prophet(holidays=holidays)
forecast = m.fit(df).predict(future)
  • 可以通过forecast看看假期效应
forecast[(forecast['playoff'] + forecast['superbowl']).abs() > 0][['ds', 'playoff', 'superbowl']][-15:]
  • 看看假期效应在图上的显示,playoff日期有高峰,superbowl日期有更明显的高峰
fig = m.plot_components(forecast)
  • 对假期单独画图
from fbprophet.plot import plot_forecast_component
plot_forecast_component(m, forecast, 'superbowl')

内置假期

  • 可以通过add_country_holidays使用内置假期
  • 通过模型的train_holiday_names方法查看哪些假期
m = Prophet(holidays=holidays)
m.add_country_holidays(country_name='CN')
m.fit(df)

m.train_holiday_names
INFO:fbprophet:Disabling daily seasonality. Run prophet with daily_seasonality=True to override this.

0                 playoff
1               superbowl
2          New Year's Day
3        Chinese New Year
4       Tomb-Sweeping Day
5               Labor Day
6    Dragon Boat Festival
7     Mid-Autumn Festival
8            National Day
dtype: object
m = Prophet(holidays=holidays)
m.add_country_holidays(country_name='US')
m.fit(df)

forecast = m.predict(future)
fig = m.plot_components(forecast)

季节性的傅里叶级数

  • 年度季节性的傅里叶级数默认是10
from fbprophet.plot import plot_yearly
m = Prophet().fit(df)
a = plot_yearly(m)
  • 默认值大多数是没问题的,但是季节性可能有更高频率的变化,并且通常没有这么平滑,这时可以增加这个值
  • 增加这个值也可能导致过拟合,这里增加到20
from fbprophet.plot import plot_yearly
m = Prophet(yearly_seasonality=20).fit(df)
a = plot_yearly(m)

自定义季节性

  • 时间序列超过两个周期时,Prophet默认训练星期和年的季节性

  • 在sub-daily的时间序列时,会训练每天的季节性

  • 可以使用函数add_seasonality添加小时/月/季度等其他季节性

  • 函数add_seasonality的参数:

    • name 哪种周期
    • period 季节性的周期
    • fourier_order 季节性的傅里叶级数
    • prior_scale 可选参数
    • 默认情况下,周的季节性傅里叶级数为3,年的季节性傅里叶级数为10
  • 这里将每周的季节性替换为每月的季节性(period=30.5)

m = Prophet(weekly_seasonality=False)
m.add_seasonality(name='monthly', period=30.5, fourier_order=5)
forecast = m.fit(df).predict(future)
fig = m.plot_components(forecast)

依赖于其他因素的季节性

  • 有时候季节性依赖于其他一些因素,比如每周的季节性在夏天和其他季节表现不一致,每天的季节性在周末和周内表现不一致,这种季节性可以使用带条件的季节性训练模型

  • 在一年中默认每周的季节性表现是一致的,但是可能希望每周的季节性在淡季和旺季(每周末有比赛)表现不一致

  • 可以使用带条件的季节性为淡季和旺季单独构建每周的季节性

这里先增加一列布尔类型的数据,来表示日期在淡季还是旺季:

def is_nfl_season(ds):
    date = pd.to_datetime(ds)
    return (date.month > 8 or date.month < 2)

df['on_season'] = df['ds'].apply(is_nfl_season)
df['off_season'] = ~df['ds'].apply(is_nfl_season)
  • 接着禁用内置的每周季节性,使用淡季的周季节性和旺季的周季节性代替

  • 因此,只有condition_name列为True的时候季节性才有日期

  • 在预测的DataFrame上,也要做同样的操作

m = Prophet(weekly_seasonality=False)
m.add_seasonality(name='weekly_on_season', period=7, fourier_order=3, condition_name='on_season')
m.add_seasonality(name='weekly_off_season', period=7, fourier_order=3, condition_name='off_season')

future['on_season'] = future['ds'].apply(is_nfl_season)
future['off_season'] = ~future['ds'].apply(is_nfl_season)
forecast = m.fit(df).predict(future)
fig = m.plot_components(forecast)

从图中可以看到,在旺季的时候每周末都会打球,周日和周一都有大幅度增长,但在淡季则完全没有。

假期和季节性的prior scale

  • 如果发现假期过拟合,可以设置参数holidays_prior_scale调整假期的prior scale使之平滑
  • 这个参数默认是10,减少可以限制假期效果
m = Prophet(holidays=holidays, holidays_prior_scale=0.05).fit(df)
forecast = m.predict(future)
forecast[(forecast['playoff'] + forecast['superbowl']).abs() > 0][['ds', 'playoff', 'superbowl']][-10:]

可以看到,比起之前假期效应被减弱了,特别是在观看最少的superbowls上

可以用下面的方式设置每周季节性的prior_scale

额外的回归特征

  • 可以使用函数add_regressor将其他回归特征添加到模型的线性部分
  • 训练和预测的数据集上都需要包含这些回归特征的值

下面,为NFL赛季的每周日添加这样一个回归特征,再画图看看这个特征的效果

def nfl_sunday(ds):
    date = pd.to_datetime(ds)
    if date.weekday() == 6 and (date.month > 8 or date.month < 2):
        return 1
    else:
        return 0
df['nfl_sunday'] = df['ds'].apply(nfl_sunday)

m = Prophet()
m.add_regressor('nfl_sunday')
m.fit(df)

future['nfl_sunday'] = future['ds'].apply(nfl_sunday)

forecast = m.predict(future)
fig = m.plot_components(forecast)
  • 也可以使用前面说过的holidays的接口,通过创建一个过去和未来的这些周日的list来处理NFL赛季周日的这种情况
  • 函数add_regressor为定义额外的线性回归提供了一个更加通用的接口

7.6 模型诊断(内置方法)

  • Prophet有交叉验证功能,具体做法是通过在历史数据中选择一些截断点,对于这些截断点,只使用这些点之前的数据来拟合模型,然后比较真实值和预测值

下面模型使用前五年的数据训练,预测后一年的数据

m = Prophet()
m.fit(df)
future = m.make_future_dataframe(periods=366)

from fbprophet.diagnostics import cross_validation

df_cv = cross_validation(m, '365 days', initial='1825 days', period='365 days')
cutoff = df_cv['cutoff'].unique()[0]
df_cv = df_cv[df_cv['cutoff'].values == cutoff]

fig = plt.figure(facecolor='w', figsize=(10, 6))
ax = fig.add_subplot(111)
ax.plot(m.history['ds'].values, m.history['y'], 'k.')
ax.plot(df_cv['ds'].values, df_cv['yhat'], ls='-', c='#0072B2')
ax.fill_between(df_cv['ds'].values, df_cv['yhat_lower'],
                df_cv['yhat_upper'], color='#0072B2',
                alpha=0.2)
ax.axvline(x=pd.to_datetime(cutoff), c='gray', lw=4, alpha=0.5)
ax.set_ylabel('y')
ax.set_xlabel('ds')
ax.text(x=pd.to_datetime('2010-01-01'),y=12, s='Initial', color='black',
       fontsize=16, fontweight='bold', alpha=0.8)
ax.text(x=pd.to_datetime('2012-08-01'),y=12, s='Cutoff', color='black',
       fontsize=16, fontweight='bold', alpha=0.8)
ax.axvline(x=pd.to_datetime(cutoff) + pd.Timedelta('365 days'), c='gray', lw=4,
           alpha=0.5, ls='--')
ax.text(x=pd.to_datetime('2013-01-01'),y=6, s='Horizon', color='black',
       fontsize=16, fontweight='bold', alpha=0.8);
  • 可以使用函数cross_validation给这些历史截断点自动完成交叉验证,参数如下:
    • horizon:代表每次从cutoff往后预测多少天
    • initial :一开始的时间是多少
    • period :代表每隔多长时间设置一个cutoff
    • 默认情况下,period是horizon的三倍,并且每隔半个horizon设置一个截断点
  • 交叉验证的输出是一个DataFrame,包含真实的y和预测的yhat,可以用来评判效果

下面的交叉验证,horizon=365天,initial=730天,period=180天,在八年的时间序列中,等于有11((365*8-730-365)/180)个总的预测

from fbprophet.diagnostics import cross_validation
df_cv = cross_validation(m, initial='730 days', period='180 days', horizon = '365 days')
df_cv.head()
  • 函数performance_metrics可以用来评判模型效果,计算得到:
    • 统计信息包括均方误差(mean squared error, MSE)
    • 均方根误差(root mean squared error, RMSE)
    • 平均绝对误差(mean absolute error, MAE)
    • 平均绝对误差(mean absolute percent error, MAPE)
    • yhat_lower和yhat_upper估计的覆盖率
from fbprophet.diagnostics import performance_metrics
df_p = performance_metrics(df_cv)
df_p.head()
  • 可以使用plot_cross_validation_metric来可视化这些指标,查看mape指标下的可视化,可以看到对未来一个月的预测有5%的误差,一年后的预测误差增加到了11%
from fbprophet.plot import plot_cross_validation_metric
fig = plot_cross_validation_metric(df_cv, metric='mape')

7.7 模型评估

  • 通过历史数据对已知的最后一年数据进行预测并评估模型
prediction_size = 365
train_df = df[:-prediction_size]
train_df.tail()
model2 = Prophet(daily_seasonality=True)
model2.fit(train_df)
future2 = model2.make_future_dataframe(periods=365)
forecast2 = model2.predict(future2)

model2 .plot(forecast2);
  • 定义一个辅助函数,用于从原数据集df中获取实际值y,然后和forecast对象中的预测值比较
def make_comparison_dataframe(historical, forecast):
    return forecast.set_index('ds')[['yhat', 'yhat_lower', 'yhat_upper']].join(historical.set_index('ds'))
cmp_df = make_comparison_dataframe(df, forecast2)
cmp_df.tail()
  • 预测评价指标:

    • MAE:平均绝对误差,

    范围[0,+∞),当预测值与真实值完全吻合时等于0,即完美模型;误差越大,该值越大。

    • MAPE:平均绝对百分比误差,

      范围[0,+∞),MAPE 为0%表示完美模型,MAPE 大于 100 %则表示劣质模型。

  • 定义计算MAPE和MAE的辅助函数

def calculate_forecast_errors(df, prediction_size):
    df = df.copy()
    df['e'] = df['y'] - df['yhat']
    df['p'] = 1* df['e'] / df['y']
    predicted_part = df[-prediction_size:]
    error_mean = lambda error_name: np.mean(np.abs(predicted_part[error_name]))
    return {'MAPE': error_mean('p'), 'MAE': error_mean('e')}
  • 计算MAPE和MAE
for err_name, err_value in calculate_forecast_errors(cmp_df, prediction_size).items():
    print(err_name, err_value)
MAPE 0.053184142465032766
MAE 0.4132303661978998

Box-Cox变换

  • 定义计算函数
def inverse_boxcox(y, lambda_):
    return np.exp(y) if lambda_ == 0 else np.exp(np.log(lambda_ * y + 1) / lambda_)
  • 准备数据,设置索引
train_df2 = train_df.copy().set_index('ds')
  • 应用Box-Cox变换。这里它将返回两个值,第一个值是转换后的序列,第二个值是找到的最优λ值(最大似然)
from scipy import stats
import statsmodels.api as sm
train_df2['y'], lambda_prophet = stats.boxcox(train_df2['y'])
train_df2.reset_index(inplace=True)
  • 创建一个新Prophet模型,并重复之前的拟合-预测流程
model3  = Prophet(daily_seasonality=True)
model3 .fit(train_df2)
future3 = model3.make_future_dataframe(periods=prediction_size)
forecast3 = model3.predict(future3)
  • 通过逆函数和已知的λ值反转Box-Cox变换
for column in ['yhat']:
    forecast3[column] = inverse_boxcox(forecast3[column],lambda_prophet)
  • 计算MAPE和MAE
cmp_df2 = make_comparison_dataframe(df, forecast3)
for err_name, err_value in calculate_forecast_errors(cmp_df2, prediction_size).items():
     print(err_name, err_value)
MAPE 0.04373071028220759
MAE 0.34260353853143777

对最后一年的真实值与预测值进行可视化对比

test_df = df[-prediction_size:]
test_df = test_df.set_index('ds')
forecast2 = forecast2[['ds','yhat']].set_index('ds')
df_all = forecast2.join(test_df).dropna()
df_all.head()
df_all.plot()
plt.rcParams['figure.figsize']=(30,20)
plt.style.use('ggplot')
plt.legend(['true', 'yhat'])
plt.show()

你可能感兴趣的:(初识Prophet模型(二)-- 应用篇)