涤生（bluez）

时间序列分析 - AirPassenger

时间序列分析 - AirPassengers

加载pandas、matplotlib等包，处理时间序列

import pandas as pd
import numpy as np
import matplotlib.pylab as plt

%matplotlib inline
# 解决坐标轴刻度负号乱码
plt.rcParams['axes.unicode_minus'] = False
# 解决中文乱码问题
plt.rcParams['font.sans-serif'] = ['Simhei']

from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 20, 6

import warnings
warnings.filterwarnings("ignore")

data = pd.read_csv('AirPassengers.csv')
data.head()

	Month	#Passengers
0	1949-01	112
1	1949-02	118
2	1949-03	132
3	1949-04	129
4	1949-05	121

data.dtypes

Month          object
#Passengers     int64
dtype: object

data.columns

Index(['Month', '#Passengers'], dtype='object')

Month 是object类型，在时间序列分析中，我们需要现将数据转化为时间序列

第一种方法：将Month以索引读入，转化为时间格式

# 读取数据，pd.read_csv默认生成DataFrame对象，需将其转换成Series对象
df = pd.read_csv('AirPassengers.csv', encoding='utf-8', index_col='Month')
df.head()

	#Passengers
Month
1949-01	112
1949-02	118
1949-03	132
1949-04	129
1949-05	121

df.index = pd.to_datetime(df.index)  # 将字符串索引转换成时间索引
df.head()

	#Passengers
Month
1949-01-01	112
1949-02-01	118
1949-03-01	132
1949-04-01	129
1949-05-01	121

ts = df['#Passengers']  # 生成pd.Series对象
# 查看数据格式
ts.head()

Month
1949-01-01    112
1949-02-01    118
1949-03-01    132
1949-04-01    129
1949-05-01    121
Name: #Passengers, dtype: int64

ts.head().index

DatetimeIndex(['1949-01-01', '1949-02-01', '1949-03-01', '1949-04-01',
               '1949-05-01'],
              dtype='datetime64[ns]', name='Month', freq=None)

第二种方法：以时间格式读入Month，并将其设置为索引（推荐）

# pd.read_csv?

dateparse = lambda dates: pd.datetime.strptime(dates, '%Y-%m')
dateparse('1962-01')

datetime.datetime(1962, 1, 1, 0, 0)

df = pd.read_csv('AirPassengers.csv', parse_dates=['Month'], index_col='Month', date_parser=dateparse)
df.head()

	#Passengers
Month
1949-01-01	112
1949-02-01	118
1949-03-01	132
1949-04-01	129
1949-05-01	121

df.shape

(144, 1)

# 检查索引格式
df.index

DatetimeIndex(['1949-01-01', '1949-02-01', '1949-03-01', '1949-04-01',
               '1949-05-01', '1949-06-01', '1949-07-01', '1949-08-01',
               '1949-09-01', '1949-10-01',
               ...
               '1960-03-01', '1960-04-01', '1960-05-01', '1960-06-01',
               '1960-07-01', '1960-08-01', '1960-09-01', '1960-10-01',
               '1960-11-01', '1960-12-01'],
              dtype='datetime64[ns]', name='Month', length=144, freq=None)

# convert to time series:
ts = df['#Passengers']
ts.head(10)

Month
1949-01-01    112
1949-02-01    118
1949-03-01    132
1949-04-01    129
1949-05-01    121
1949-06-01    135
1949-07-01    148
1949-08-01    148
1949-09-01    136
1949-10-01    119
Name: #Passengers, dtype: int64

检索时间序列

检索特定时间的序列值

# 1. 检索特定时间的序列值
ts['1949-01-01']

# 2. 导入datetime的datetime模块，生成索引检索特定时间的序列值
from datetime import datetime
ts[datetime(1949,1,1)]

获取一定时间区间的序列值

# 1. 切片，指定区间
ts['1949-01-01':'1949-05-01']

Month
1949-01-01    112
1949-02-01    118
1949-03-01    132
1949-04-01    129
1949-05-01    121
Name: #Passengers, dtype: int64

# 2. 切片，从开始到指定时间点
ts[:'1949-05-01']

Month
1949-01-01    112
1949-02-01    118
1949-03-01    132
1949-04-01    129
1949-05-01    121
Name: #Passengers, dtype: int64

Note: ends included here

# 所有1949年的数据
ts['1949']

Month
1949-01-01    112
1949-02-01    118
1949-03-01    132
1949-04-01    129
1949-05-01    121
1949-06-01    135
1949-07-01    148
1949-08-01    148
1949-09-01    136
1949-10-01    119
1949-11-01    104
1949-12-01    118
Name: #Passengers, dtype: int64

min(ts.index), max(ts.index)

(Timestamp('1949-01-01 00:00:00'), Timestamp('1960-12-01 00:00:00'))

平稳性检验

绘制时序图

plt.plot(ts);

[外链图片转存(img-y6tQm2EE-1562729474892)(output_30_0.png)]

平稳性检验

# 移动平均
# pd.rolling_mean?

from statsmodels.tsa.stattools import adfuller

def test_stationarity(timeseries):
    # Determing rolling statistics
    rolmean = timeseries.rolling(window=12, center=False).mean()
    rolstd =  timeseries.rolling(window=12, center=False).std()
    
    # Plot rolling statistics:
    orig = plt.plot(timeseries, color='blue', label='Original')
    mean = plt.plot(rolmean, color='red', label='Rolling Mean')
    std = plt.plot(rolstd, color='black', label = 'Rolling Std')
    plt.legend(loc='best')
    plt.title('Rolling Mean & Standard Deviation')
    plt.show(block=False)
    
    # Perform Dickey-Fuller test:
    print('Results of Dickey-Fuller Test:')
    dftest = adfuller(timeseries, autolag='AIC')
    dfoutput = pd.Series(dftest[0:4], index=['Test Statistic','p-value','#Lags Used','Number of Observations Used'])
    for key,value in dftest[4].items():
        dfoutput['Critical Value ({})'.format(key)] = value
    print(dfoutput)

test_stationarity(ts)

[外链图片转存(img-FSxx9adZ-1562729474893)(output_34_0.png)]

Results of Dickey-Fuller Test:
Test Statistic                   0.815369
p-value                          0.991880
#Lags Used                      13.000000
Number of Observations Used    130.000000
Critical Value (1%)             -3.481682
Critical Value (5%)             -2.884042
Critical Value (10%)            -2.578770
dtype: float64

p = 0.991880 > 0.05 序列非平稳, 同时也可以注意到均值和方差很不稳定

# acorr_ljungbox?

from statsmodels.stats.diagnostic import acorr_ljungbox

# 白噪声检验：Ljung-Box test
def randomness(ts, lags=10):
    rdtest = acorr_ljungbox(ts,lags=lags)
    # 对上述函数求得的值进行语义描述
    rddata = np.c_[range(1,lags+1),rdtest[1:][0]]
    rdoutput = pd.DataFrame(rddata,columns=['lags','p-value'])
    return rdoutput.set_index('lags')

randomness(ts)

	p-value
lags
1.0	1.393231e-30
2.0	4.556318e-54
3.0	5.751088e-74
4.0	2.817731e-91
5.0	7.360195e-107
6.0	4.264008e-121
7.0	1.305463e-134
8.0	6.496271e-148
9.0	5.249370e-162
10.0	1.100789e-177

p = 1.3932314e-30 < 0.05，序列为非白噪声序列

平稳性处理 - 估计和消除趋势

消除趋势的第一个诀窍是对数变换。因为，能清楚地看到我们的数据呈现一个显著的上升趋势。因此，我们可以应用log变换。当然还有其他的变换方式，如：平方根，立方根等等。

[外链图片转存失败(img-lWuJFawA-1562729474893)(log 函数曲线.jpg)]

对数变换(log transform)

ts_log = np.log(ts)

# Plot original ts and log(ts):
plt.subplot(211)
plt.title('Original')
plt.plot(ts,label='Original ts')
plt.legend(loc='best')
plt.subplot(212)
plt.title('Log')
plt.plot(ts_log, label='Log(ts)')
plt.legend(loc='best')
plt.tight_layout()

[外链图片转存(img-zYLSvexy-1562729474894)(output_44_0.png)]

平滑法/移动平均法(Moving average)

moving_avg = ts_log.rolling(window=12,center=False).mean()  # 窗口为12
plt.plot(ts_log, label='Original')
plt.plot(moving_avg, color='red', label='Moving average')
plt.title('Moving average(12)')
plt.legend(loc='best');

[外链图片转存(img-gWMOPmSo-1562729474894)(output_46_0.png)]

# 移除移动平均值
ts_log_moving_avg_diff = ts_log - moving_avg
ts_log_moving_avg_diff.head(24)

Month
1949-01-01         NaN
1949-02-01         NaN
1949-03-01         NaN
1949-04-01         NaN
1949-05-01         NaN
1949-06-01         NaN
1949-07-01         NaN
1949-08-01         NaN
1949-09-01         NaN
1949-10-01         NaN
1949-11-01         NaN
1949-12-01   -0.065494
1950-01-01   -0.093449
1950-02-01   -0.007566
1950-03-01    0.099416
1950-04-01    0.052142
1950-05-01   -0.027529
1950-06-01    0.139881
1950-07-01    0.260184
1950-08-01    0.248635
1950-09-01    0.162937
1950-10-01   -0.018578
1950-11-01   -0.180379
1950-12-01    0.010818
Name: #Passengers, dtype: float64

ts_log_moving_avg_diff.dropna(inplace=True)
ts_log_moving_avg_diff.head()

Month
1949-12-01   -0.065494
1950-01-01   -0.093449
1950-02-01   -0.007566
1950-03-01    0.099416
1950-04-01    0.052142
Name: #Passengers, dtype: float64

test_stationarity(ts_log_moving_avg_diff)

[外链图片转存(img-yPo4GPsI-1562729474895)(output_49_0.png)]

Results of Dickey-Fuller Test:
Test Statistic                  -3.162908
p-value                          0.022235
#Lags Used                      13.000000
Number of Observations Used    119.000000
Critical Value (1%)             -3.486535
Critical Value (5%)             -2.886151
Critical Value (10%)            -2.579896
dtype: float64

p = 0.022235 < 0.05 我们可以说在95%的置信度下该序列平稳，均值和方差比平滑法相对稳定

然而，这种特殊方法的一个缺点是，必须严格定义时间周期。在这种情况下，我们可以取年平均，但在复杂的情况下，比如预测股票价格，很难通过这种方法达到平稳。所以我们取一个“加权移动平均”(weighted moving average)，该方法中最近的时序值被赋予更高的权重。有很多方法可以分配权重。最常用的是指数加权移动平均，权重被分配到所有之前的值。

指数加权平滑法(exponentially weighted moving average)

# ts_log.ewm?

expwighted_avg = ts_log.ewm(min_periods=0, ignore_na=False, halflife=12, adjust=True).mean()
plt.plot(ts_log, label='Original')
plt.plot(moving_avg, color='red', label='Moving average')
plt.plot(expwighted_avg, color='green', label='Weighted Moving average')
# expwighted_avg.plot(style='k--')
plt.title('Moving Average(12) & weighted Moving Average(12)')
plt.legend(loc='best');

[外链图片转存(img-jej2P1qZ-1562729474895)(output_53_0.png)]

# 移除指数加权移动平均值
ts_log_ewma_diff = ts_log - expwighted_avg
test_stationarity(ts_log_ewma_diff)

[外链图片转存(img-spwk5QIJ-1562729474895)(output_54_0.png)]

Results of Dickey-Fuller Test:
Test Statistic                  -3.601262
p-value                          0.005737
#Lags Used                      13.000000
Number of Observations Used    130.000000
Critical Value (1%)             -3.481682
Critical Value (5%)             -2.884042
Critical Value (10%)            -2.578770
dtype: float64

p = 0.005737 现在可以说在99%的置信度下该序列平稳，均值和方差更加稳定

并且注意这里没有产生缺失值

消除趋势和季节因素

前面提到的方法不是对所有的问题都能做到很好的解决，尤其是在有比较明显的季节性因素存在的时候。下面我们会讲到两个常用而且有效地方法来消除趋势项和季节性因素：

差分：以一定的时间间隔做差分
分解：对趋势和季节性进行建模，并将它们从模型中移除

差分

# 一阶差分
ts_log_diff = ts_log - ts_log.shift()
plt.plot(ts_log_diff);

[外链图片转存(img-OJI8GEMZ-1562729474896)(output_58_0.png)]

ts_log_diff.dropna(inplace=True)
test_stationarity(ts_log_diff)

[外链图片转存(img-7tziORx9-1562729474896)(output_59_0.png)]

Results of Dickey-Fuller Test:
Test Statistic                  -2.717131
p-value                          0.071121
#Lags Used                      14.000000
Number of Observations Used    128.000000
Critical Value (1%)             -3.482501
Critical Value (5%)             -2.884398
Critical Value (10%)            -2.578960
dtype: float64

p = 0.071121 可以说在90%的置信度下该序列平稳，均值和方差很稳定

分解

from statsmodels.tsa.seasonal import seasonal_decompose
decomposition = seasonal_decompose(ts_log)

trend = decomposition.trend
seasonal = decomposition.seasonal
residual = decomposition.resid

plt.subplot(411)
plt.plot(ts_log, label='Original')
plt.legend(loc='best')
plt.subplot(412)
plt.plot(trend, label='Trend')
plt.legend(loc='best')
plt.subplot(413)
plt.plot(seasonal,label='Seasonality')
plt.legend(loc='best')
plt.subplot(414)
plt.plot(residual, label='Residuals')
plt.legend(loc='best')
plt.tight_layout()

[外链图片转存(img-4GU2jwWs-1562729474896)(output_62_0.png)]

# 检验残差的平稳性
ts_log_decompose = residual
ts_log_decompose.dropna(inplace=True)
test_stationarity(ts_log_decompose)

[外链图片转存(img-RBRWLtFc-1562729474896)(output_63_0.png)]

Results of Dickey-Fuller Test:
Test Statistic                -6.332387e+00
p-value                        2.885059e-08
#Lags Used                     9.000000e+00
Number of Observations Used    1.220000e+02
Critical Value (1%)           -3.485122e+00
Critical Value (5%)           -2.885538e+00
Critical Value (10%)          -2.579569e+00
dtype: float64

模型拟合

ARMA

from statsmodels.tsa.arima_model import ARIMA

ACF & PACF Plots

# ACF and PACF plots:
from statsmodels.tsa.stattools import acf, pacf  

# ts_log_diff， log变换后做一阶差分后的时序
lag_acf = acf(ts_log_diff, nlags=30)
lag_pacf = pacf(ts_log_diff, nlags=30, method='ols')

# Plot ACF:
plt.subplot(121)    
plt.plot(lag_acf)
plt.axhline(y=0,linestyle='--',color='gray')
plt.axhline(y=-1.96/np.sqrt(len(ts_log_diff)),linestyle='--',color='gray')
plt.axhline(y=1.96/np.sqrt(len(ts_log_diff)),linestyle='--',color='gray')
plt.title('Autocorrelation Function')

# Plot PACF:
plt.subplot(122)
plt.plot(lag_pacf)
plt.axhline(y=0,linestyle='--',color='gray')
plt.axhline(y=-1.96/np.sqrt(len(ts_log_diff)),linestyle='--',color='gray')
plt.axhline(y=1.96/np.sqrt(len(ts_log_diff)),linestyle='--',color='gray')
plt.title('Partial Autocorrelation Function')
plt.tight_layout()

[外链图片转存(img-v5iIBEYw-1562729474897)(output_68_0.png)]

可以看到ACF和PACF分别在2阶的时候第一次落到置信区间内

# 其实，statsmodels提供了更加方便的话ACF，PACF的函数
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

# 自相关和偏相关图，默认阶数为31阶
def draw_acf_pacf(ts, lags=31):
    f = plt.figure(facecolor='white',figsize=(20,4))
    ax1 = f.add_subplot(121)
    plot_acf(ts, lags=31, ax=ax1)
    ax2 = f.add_subplot(122)
    plot_pacf(ts, lags=31, ax=ax2)
    plt.show()

draw_acf_pacf(ts)

[外链图片转存(img-0IlJORmw-1562729474897)(output_72_0.png)]

draw_acf_pacf(ts_log_diff)

[外链图片转存(img-zyzeAv4N-1562729474897)(output_73_0.png)]

AR Model:

model = ARIMA(ts_log, order=(2, 1, 0))
results_AR = model.fit(disp=-1)
plt.plot(ts_log_diff)
plt.plot(results_AR.fittedvalues, color='red')
plt.title('RSS: {:.4f}'.format(sum((results_AR.fittedvalues-ts_log_diff)**2)));

[外链图片转存(img-5qz998lw-1562729474898)(output_75_0.png)]

MA Model

model = ARIMA(ts_log, order=(0, 1, 2))  
results_MA = model.fit(disp=-1)  
plt.plot(ts_log_diff)
plt.plot(results_MA.fittedvalues, color='red')
plt.title('RSS: {:.4f}'.format(sum((results_MA.fittedvalues-ts_log_diff)**2)));

[外链图片转存(img-VHpE4QzO-1562729474898)(output_77_0.png)]

ARIMA Model:

model = ARIMA(ts_log, order=(2, 1, 2))  
results_ARIMA = model.fit(disp=-1)
print(results_ARIMA.summary())

                             ARIMA Model Results                              
==============================================================================
Dep. Variable:          D.#Passengers   No. Observations:                  143
Model:                 ARIMA(2, 1, 2)   Log Likelihood                 149.640
Method:                       css-mle   S.D. of innovations              0.084
Date:                Mon, 03 Sep 2018   AIC                           -287.281
Time:                        16:39:28   BIC                           -269.504
Sample:                    02-01-1949   HQIC                          -280.057
                         - 12-01-1960                                         
=======================================================================================
                          coef    std err          z      P>|z|      [0.025      0.975]
---------------------------------------------------------------------------------------
const                   0.0096      0.003      3.697      0.000       0.005       0.015
ar.L1.D.#Passengers     1.6293      0.039     41.868      0.000       1.553       1.706
ar.L2.D.#Passengers    -0.8946      0.039    -23.127      0.000      -0.970      -0.819
ma.L1.D.#Passengers    -1.8270      0.036    -51.303      0.000      -1.897      -1.757
ma.L2.D.#Passengers     0.9245      0.036     25.568      0.000       0.854       0.995
                                    Roots                                    
=============================================================================
                  Real          Imaginary           Modulus         Frequency
-----------------------------------------------------------------------------
AR.1            0.9106           -0.5372j            1.0573           -0.0848
AR.2            0.9106           +0.5372j            1.0573            0.0848
MA.1            0.9881           -0.3245j            1.0400           -0.0505
MA.2            0.9881           +0.3245j            1.0400            0.0505
-----------------------------------------------------------------------------

plt.plot(ts_log_diff)
plt.plot(results_ARIMA.fittedvalues, color='red')
plt.title('RSS: {:.4f}'.format(sum((results_ARIMA.fittedvalues-ts_log_diff)**2)));

[外链图片转存(img-ak6oboSI-1562729474898)(output_80_0.png)]

将预测值转化为变换前的值:

predictions_ARIMA_diff = pd.Series(results_ARIMA.fittedvalues, copy=True)
predictions_ARIMA_diff.head()

Month
1949-02-01    0.009580
1949-03-01    0.017491
1949-04-01    0.027670
1949-05-01   -0.004521
1949-06-01   -0.023889
dtype: float64

predictions_ARIMA_diff.tail()

Month
1960-08-01   -0.041176
1960-09-01   -0.092350
1960-10-01   -0.094013
1960-11-01   -0.069924
1960-12-01   -0.008127
dtype: float64

# 消除一阶差分的影响
predictions_ARIMA_diff_cumsum = predictions_ARIMA_diff.cumsum()
predictions_ARIMA_diff_cumsum.head()

Month
1949-02-01    0.009580
1949-03-01    0.027071
1949-04-01    0.054742
1949-05-01    0.050221
1949-06-01    0.026331
dtype: float64

ts_log.iloc[0]

4.718498871295094

# 将1949-01-01的值添加回来，并以此为基数，变换回差分前
predictions_ARIMA_log = pd.Series(ts_log.iloc[0], index=ts_log.index)
predictions_ARIMA_log = predictions_ARIMA_log.add(predictions_ARIMA_diff_cumsum, fill_value=0)
predictions_ARIMA_log.head()

Month
1949-01-01    4.718499
1949-02-01    4.728079
1949-03-01    4.745570
1949-04-01    4.773241
1949-05-01    4.768720
dtype: float64

plt.plot(ts_log)
plt.plot(predictions_ARIMA_log);

[外链图片转存(img-U5LE6Pad-1562729474899)(output_87_0.png)]

predictions_ARIMA = np.exp(predictions_ARIMA_log)
predictions_ARIMA.head()

Month
1949-01-01    112.000000
1949-02-01    113.078122
1949-03-01    115.073413
1949-04-01    118.301983
1949-05-01    117.768360
dtype: float64

plt.plot(ts)
plt.plot(predictions_ARIMA)
plt.title('RMSE: {:.4f}'.format(np.sqrt(sum((predictions_ARIMA-ts)**2)/len(ts))));

[外链图片转存(img-mVcPVaXi-1562729474899)(output_89_0.png)]

SARMAX

import statsmodels.api as sm

draw_acf_pacf(ts)

[外链图片转存(img-EFwoHjxx-1562729474899)(output_92_0.png)]

# Fit the model
mod = sm.tsa.statespace.SARIMAX(ts_log, order=(1,1,1), seasonal_order=(1,0,0,12), simple_differencing=True)
res = mod.fit(disp=False)
print(res.summary())

                                 Statespace Model Results                                 
==========================================================================================
Dep. Variable:                      D.#Passengers   No. Observations:                  143
Model:             SARIMAX(1, 0, 1)x(1, 0, 0, 12)   Log Likelihood                 237.983
Date:                            Mon, 03 Sep 2018   AIC                           -467.965
Time:                                    16:39:36   BIC                           -456.114
Sample:                                02-01-1949   HQIC                          -463.149
                                     - 12-01-1960                                         
Covariance Type:                              opg                                         
==============================================================================
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
ar.L1         -0.4712      0.285     -1.652      0.099      -1.030       0.088
ma.L1          0.2038      0.312      0.653      0.514      -0.408       0.815
ar.S.L12       0.9275      0.028     33.439      0.000       0.873       0.982
sigma2         0.0018      0.000      9.367      0.000       0.001       0.002
===================================================================================
Ljung-Box (Q):                       52.52   Jarque-Bera (JB):                 2.94
Prob(Q):                              0.09   Prob(JB):                         0.23
Heteroskedasticity (H):               0.50   Skew:                             0.22
Prob(H) (two-sided):                  0.02   Kurtosis:                         3.54
===================================================================================

Warnings:
[1] Covariance matrix calculated using the outer product of gradients (complex-step).

# In-sample one-step-ahead predictions, and out-of-sample forecasts
nforecast = 12
predict = res.get_prediction(end=mod.nobs + nforecast)

# 消除一阶差分的影响
pred_log = pd.Series(ts_log.iloc[0], index=ts_log[[0]].index)
pred_log = pred_log.add(predict.predicted_mean, fill_value=0).cumsum()
# 对数还原
pred_ARIMA = np.exp(pred_log)

# Graph
fig, ax = plt.subplots(figsize=(12,6))
ax.xaxis.grid()
ax.plot(ts, 'k.')
# Plot
ax.plot(pred_ARIMA[:-nforecast-1], 'b')
ax.plot(pred_ARIMA[-nforecast-1:], 'k--', linestyle='--', linewidth=2)
ax.set(title='RMSE: {:.4f}'.format(np.sqrt(sum((pred_ARIMA[:-nforecast-1]-ts)**2)/len(ts))));

[外链图片转存(img-5VgKJk1E-1562729474899)(output_96_0.png)]

进一步调优

# log变换，平滑，一阶差分
ts_log = np.log(ts)
rol_mean = ts_log.rolling(window=12).mean()
rol_mean.dropna(inplace=True)
ts_diff_1 = rol_mean.diff(1)
ts_diff_1.dropna(inplace=True)
test_stationarity(ts_diff_1)

[外链图片转存(img-NF1IHiw2-1562729474900)(output_98_0.png)]

Results of Dickey-Fuller Test:
Test Statistic                  -2.709577
p-value                          0.072396
#Lags Used                      12.000000
Number of Observations Used    119.000000
Critical Value (1%)             -3.486535
Critical Value (5%)             -2.886151
Critical Value (10%)            -2.579896
dtype: float64

# 二阶差分
ts_diff_2 = ts_diff_1.diff(1)
ts_diff_2.dropna(inplace=True)

from statsmodels.tsa.arima_model import ARMA

# 拟合模型
model = ARMA(ts_diff_2, order=(1, 1))
result_arma = model.fit(disp=-1, method='css')

# 预测值
result_arma.fittedvalues.head()

Month
1950-03-01    0.000536
1950-04-01    0.000283
1950-05-01    0.000801
1950-06-01    0.000844
1950-07-01   -0.001620
dtype: float64

print(result_arma.summary())

                              ARMA Model Results                              
==============================================================================
Dep. Variable:            #Passengers   No. Observations:                  131
Model:                     ARMA(1, 1)   Log Likelihood                 548.413
Method:                           css   S.D. of innovations              0.004
Date:                Mon, 03 Sep 2018   AIC                          -1088.826
Time:                        16:39:41   BIC                          -1077.356
Sample:                    03-01-1950   HQIC                         -1084.165
                         - 12-01-1960                                         
=====================================================================================
                        coef    std err          z      P>|z|      [0.025      0.975]
-------------------------------------------------------------------------------------
const              4.899e-06      0.000      0.028      0.977      -0.000       0.000
ar.L1.#Passengers     0.1630      0.259      0.630      0.530      -0.345       0.671
ma.L1.#Passengers    -0.5404      0.229     -2.355      0.020      -0.990      -0.091
                                    Roots                                    
=============================================================================
                  Real          Imaginary           Modulus         Frequency
-----------------------------------------------------------------------------
AR.1            6.1335           +0.0000j            6.1335            0.0000
MA.1            1.8504           +0.0000j            1.8504            0.0000
-----------------------------------------------------------------------------

# AIC，BIC
result_arma.aic, result_arma.bic

(-1088.8260693802756, -1077.3559315784532)

# AR，MA模型参数估计
result_arma.arparams, result_arma.maparams

(array([0.16304032]), array([-0.54041254]))

# 预测值
predict_ts = result_arma.predict()
predict_ts.head(), predict_ts.tail()

(1950-03-01    0.000536
 1950-04-01    0.000283
 1950-05-01    0.000801
 1950-06-01    0.000844
 1950-07-01   -0.001620
 Freq: MS, dtype: float64, 1960-08-01   -0.000151
 1960-09-01    0.001367
 1960-10-01    0.000365
 1960-11-01   -0.000800
 1960-12-01    0.001147
 Freq: MS, dtype: float64)

样本外预测

forecast方法(Out-of-sample forecasts):

arma_model.forecast(steps=1, exog=None, alpha=0.05)

参数：

step:预测步长
exog:外生变量（armax）
alpha:预测的置信水平

forecast:预测值，数组
stderr:标准差，数组
conf_int:预测值的执行区间，二维数组

# result_arma.forecast?

result_arma.forecast(1) # 1步预测

(array([0.00093721]), array([0.00356176]), array([[-0.00604371,  0.00791813]]))

result_arma.forecast(1)[0] # 1步预测

array([0.00093721])

result_arma.forecast(10)[0] # 10步预测

array([9.37208646e-04, 1.56903477e-04, 2.96822730e-05, 8.94008713e-06,
       5.55827452e-06, 5.00690271e-06, 4.91700687e-06, 4.90235022e-06,
       4.89996060e-06, 4.89957099e-06])

predict方法

可以用来预测任意的样本内和样本外的时间步长。

arma_model.predict(start=None, end=None, exog=None, dynamic=False)

参数：

start:预测开始时间(可以是时间格式也可以是可以转化为时间格式的字符串)或训练数据的索引,1阶差分从1开始，以此类推
end:预测开始时间(可以是时间格式也可以是可以转化为时间格式的字符串)或训练数据的索引,1阶差分从1开始，以此类推
exog:外生变量（armax）
dynamic:False，样本内滞后值会被用作预测，True，样本内预测值被用来代替滞后值

predict : 预测值，数组

# result_arma.predict?

from pandas import datetime

start_index = datetime(1961, 1, 1)
end_index = datetime(1961, 12, 1)
pred = result_arma.predict(start=start_index, end=end_index)
pred.head(), pred.tail()

(1961-01-01    0.000937
 1961-02-01    0.000157
 1961-03-01    0.000030
 1961-04-01    0.000009
 1961-05-01    0.000006
 Freq: MS, dtype: float64, 1961-08-01    0.000005
 1961-09-01    0.000005
 1961-10-01    0.000005
 1961-11-01    0.000005
 1961-12-01    0.000005
 Freq: MS, dtype: float64)

# 变换过后的实际值和预测值
plt.figure(figsize=(8,5))
result_arma.plot_predict();

[外链图片转存(img-8UGOYSwh-1562729474900)(output_115_1.png)]

# 还原

# 一阶差分还原
diff_shift_ts = ts_diff_1.shift(1)
diff_recover_1 = predict_ts.add(diff_shift_ts)
# 再次一阶差分还原
rol_shift_ts = rol_mean.shift(1)
diff_recover = diff_recover_1.add(rol_shift_ts)
# 移动平均还原
rol_sum = ts_log.rolling(window=11).sum()
rol_recover = diff_recover * 12 - rol_sum.shift(1)
# 对数还原
log_recover = np.exp(rol_recover)
log_recover.head()

1949-01-01   NaN
1949-02-01   NaN
1949-03-01   NaN
1949-04-01   NaN
1949-05-01   NaN
dtype: float64

log_recover.tail(15)

1959-10-01    406.530462
1959-11-01    350.627418
1959-12-01    388.688005
1960-01-01    425.142956
1960-02-01    397.935468
1960-03-01    467.625349
1960-04-01    426.505252
1960-05-01    478.137753
1960-06-01    531.118845
1960-07-01    619.599772
1960-08-01    633.334409
1960-09-01    510.229116
1960-10-01    448.515536
1960-11-01    406.112839
1960-12-01    442.372193
dtype: float64

log_recover.dropna(inplace=True)
log_recover.head(), log_recover.tail()

(1950-03-01    141.859017
 1950-04-01    138.263428
 1950-05-01    127.851420
 1950-06-01    140.882557
 1950-07-01    160.203376
 dtype: float64, 1960-08-01    633.334409
 1960-09-01    510.229116
 1960-10-01    448.515536
 1960-11-01    406.112839
 1960-12-01    442.372193
 dtype: float64)

ts1 = ts[log_recover.index]  # 过滤没有预测的记录

plt.figure(facecolor='white')
log_recover.plot(color='green', label='Predict')
ts.plot(color='grey', label='Original')
plt.legend(loc='best')
plt.title('RMSE: {:.4f}'.format(np.sqrt(sum((log_recover-ts1)**2)/ts1.size)));

[外链图片转存(img-qJfRRaNQ-1562729474900)(output_119_0.png)]

# 差分操作
def diff_ts(ts, d):
    global shift_ts_list
    #  动态预测第二日的值时所需要的差分序列
    global last_data_shift_list
    shift_ts_list = []
    last_data_shift_list = []
    tmp_ts = ts
    for i in d:
        last_data_shift_list.append(tmp_ts[-i])
        print(last_data_shift_list)
        shift_ts = tmp_ts.shift(i)
        shift_ts_list.append(shift_ts)
        tmp_ts = tmp_ts - shift_ts
    tmp_ts.dropna(inplace=True)
    return tmp_ts

# 还原操作
def predict_diff_recover(predict_value, d):
    if isinstance(predict_value, float):
        tmp_data = predict_value
        for i in range(len(d)):
            tmp_data = tmp_data + last_data_shift_list[-i-1]
    elif isinstance(predict_value, np.ndarray):
        tmp_data = predict_value[0]
        for i in range(len(d)):
            tmp_data = tmp_data + last_data_shift_list[-i-1]
    else:
        tmp_data = predict_value
        for i in range(len(d)):
            try:
                tmp_data = tmp_data.add(shift_ts_list[-i-1])
            except:
                raise ValueError('What you input is not pd.Series type!')
        tmp_data.dropna(inplace=True)
    return tmp_data

# 模型调优
def proper_model(data_ts, maxLag):
    import sys
    init_bic = sys.maxsize
    init_p = 0
    init_q = 0
    init_properModel = None
    for p in np.arange(maxLag):
        for q in np.arange(maxLag):
            model = ARMA(data_ts, order=(p, q))
            try:
                results_ARMA = model.fit(disp=-1, method='css')
            except:
                continue
            bic = results_ARMA.bic
            if bic < init_bic:
                init_p = p
                init_q = q
                init_properModel = results_ARMA
                init_bic = bic
    print("最优模型的BIC为：{}；p为：{}；q为：{}".format(init_bic, init_p, init_q))
    return init_bic, init_p, init_q, init_properModel

diffed_ts = diff_ts(ts_log, d=[12, 1])
bic, p, q, properModel = proper_model(diffed_ts, 3)
predict_ts = properModel.predict()
diff_recover_ts = predict_diff_recover(predict_ts, d=[12, 1])
log_recover = np.exp(diff_recover_ts)

[6.0330862217988015]
[6.0330862217988015, 0.06453852113757197]
最优模型的BIC为：-439.3965513369529；p为：0；q为：1

ts1 = ts[log_recover.index]  # 过滤没有预测的记录

plt.figure(facecolor='white')
log_recover.plot(color='green', label='Predict')
ts1.plot(color='grey', label='Original')
plt.legend(loc='best')
plt.title('RMSE: {:.4f}'.format(np.sqrt(sum((log_recover-ts1)**2)/ts1.size)));

[外链图片转存(img-yMDA3YDr-1562729474901)(output_122_0.png)]

实时预测

from dateutil.relativedelta import relativedelta

def _add_new_data(ts, dat, type='day'):
    if type == 'day':
        new_index = ts.index[-1] + relativedelta(days=1)
    elif type == 'month':
        new_index = ts.index[-1] + relativedelta(months=1)
    ts[new_index] = dat

def add_today_data(model, ts,  data, d, type='day'):
    _add_new_data(ts, data, type)  # 为原始序列添加数据
    # 为滞后序列添加新值
    d_ts = diff_ts(ts, d)
#     model.add_today_data(d_ts[-1], type)
    return d_ts

def forecast_next(model,dta):
    if model == None:
        raise ValueError('No model fitted before')
    fc = model.forecast(1)[0]  # 1步预测
    return predict_diff_recover(fc, [12, 1])

ts_train = ts_log[:'1956-12']
ts_test = ts_log['1957-1':]

diffed_ts = diff_ts(ts_train, [12, 1])
forecast_list = []

for i, dta in enumerate(ts_test):
    if i % 7 == 0:
        bic, p, q, properModel = proper_model(diffed_ts, 3)
    forecast_data = forecast_next(properModel, dta)
    forecast_list.append(forecast_data)
    diffed_ts = add_today_data(properModel, ts_train, dta, [12, 1], type='month')

[5.648974238161206]
[5.648974238161206, 0.0959639882617438]
最优模型的BIC为：-258.1964284797439；p为：0；q为：1
[5.6240175061873385]
[5.6240175061873385, 0.10359840066442683]
[5.75890177387728]
[5.75890177387728, 0.08309275856153686]
[5.746203190540153]
[5.746203190540153, 0.11602895697475013]
[5.762051382780177]
[5.762051382780177, 0.10599928923432156]
[5.924255797414532]
[5.924255797414532, 0.11006640669523904]
[6.023447592961033]
[6.023447592961033, 0.12074951662147981]
[6.003887067106539]
[6.003887067106539, 0.11858981262632273]
最优模型的BIC为：-287.52098131248624；p为：0；q为：1
[5.872117789475416]
[5.872117789475416, 0.14244219056235874]
[5.723585101952381]
[5.723585101952381, 0.1292970884857345]
[5.602118820879701]
[5.602118820879701, 0.1257396779944786]
[5.723585101952381]
[5.723585101952381, 0.11819295572771082]
[5.752572638825633]
[5.752572638825633, 0.09352605801082348]
[5.707110264748875]
[5.707110264748875, 0.07637297878457439]
[5.87493073085203]
[5.87493073085203, 0.05494111803130153]
最优模型的BIC为：-316.12436720936176；p为：0；q为：1
[5.8522024797744745]
[5.8522024797744745, 0.016713480973741035]
[5.872117789475416]
[5.872117789475416, 0.0]
[6.045005314036012]
[6.045005314036012, 0.022285044789434494]
[6.142037405587356]
[6.142037405587356, 0.03034071705267216]
[6.1463292576688975]
[6.1463292576688975, 0.05440672220716447]
[6.0014148779611505]
[6.0014148779611505, 0.0782291716064627]
[5.849324779946859]
[5.849324779946859, 0.0]
最优模型的BIC为：-341.4698836569178；p为：0；q为：1
[5.720311776607412]
[5.720311776607412, 0.03399760854141931]
[5.817111159963204]
[5.817111159963204, 0.016260520871780315]
[5.8289456176102075]
[5.8289456176102075, 0.002971770389157413]
[5.762051382780177]
[5.762051382780177, 0.05715841383994835]
[5.8916442118257715]
[5.8916442118257715, 0.07275935428242786]
[5.8522024797744745]
[5.8522024797744745, 0.11470894777596108]
[5.8944028342648505]
[5.8944028342648505, 0.1292117314800061]
最优模型的BIC为：-368.1436197652257；p为：0；q为：1
[6.075346031088684]
[6.075346031088684, 0.1458518770125634]
[6.19644412779452]
[6.19644412779452, 0.0816329544968708]
[6.22455842927536]
[6.22455842927536, 0.1098311591534955]
[6.0014148779611505]
[6.0014148779611505, 0.10159104387973894]
[5.883322388488279]
[5.883322388488279, 0.13631217612508362]
[5.736572297479192]
[5.736572297479192, 0.12549079695431598]
[5.820082930352362]
[5.820082930352362, 0.1550719143465793]
最优模型的BIC为：-396.06450849453194；p为：0；q为：1
[5.886104031450156]
[5.886104031450156, 0.18380413675417717]
[5.834810737062605]
[5.834810737062605, 0.14698219034864568]
[6.0063531596017325]
[6.0063531596017325, 0.13389682292276106]
[5.981414211254481]
[5.981414211254481, 0.031517760320404875]
[6.040254711277414]
[6.040254711277414, 0.151983831742168]
[6.156978985585555]
[6.156978985585555, 0.11672427430814114]
[6.306275286948016]
[6.306275286948016, 0.12528776131045127]
最优模型的BIC为：-415.59182822959184；p为：0；q为：1
[6.326149473155099]
[6.326149473155099, 0.12666480579116346]
[6.137727054086234]
[6.137727054086234, 0.08073051291421507]
[6.008813185442595]
[6.008813185442595, 0.0927543934922479]
[5.8916442118257715]
[5.8916442118257715, 0.12458485755405402]
[6.003887067106539]
[6.003887067106539, 0.07450252729792073]
[6.0330862217988015]
[6.0330862217988015, 0.06453852113757197]

predict_ts = pd.Series(data=forecast_list, index=ts['1957-1':].index)
log_recover = np.exp(predict_ts)
# original_ts = ts['1957-1':]

ts1 = ts[log_recover.index]  # 过滤没有预测的记录
plt.figure(facecolor='white')
log_recover.plot(color='green', label='Predict')
ts.plot(color='grey', label='Original')
plt.legend(loc='best')
plt.title('RMSE: {:.4f}'.format(np.sqrt(sum((log_recover-ts1)**2)/ts1.size)));

[外链图片转存(img-PoHYPx3v-1562729474901)(output_127_0.png)]

plt.figure(facecolor='white')
log_recover.plot(color='green', label='Predict')
ts['1957-1':].plot(color='grey', label='Original')
plt.legend(loc='best')
plt.title('RMSE: {:.4f}'.format(np.sqrt(sum((log_recover-ts1)**2)/ts1.size)));

你可能感兴趣的:(数据科学入门到精通,数据科学)

C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
HarmonyOS开发实战（ Beta5.0）搜索框热搜词自动切换让开，我要吃人了 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 华为鸿蒙移动开发鸿蒙系统前端开发语言
鸿蒙HarmonyOS开发往期必看：HarmonyOSNEXT应用开发性能实践总结最新版！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）介绍本示例介绍使用TextInput组件与Swiper组件实现搜索框内热搜词自动切换。效果图预览使用说明页面顶部搜索框内热搜词条自动切换，编辑搜索框时自动隐藏。实现思路使用TextInput实现搜索框TextInput({te
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
超级无敌详细的Mysql数据库笔记（基础篇版）当大哥爱上学习 mysql 数据库笔记
注：本篇笔记根据黑马程序员MySQL数据库入门到精通的内容所创建，适合复习和结合该视频学习使用。一.基础1.关系型数据库(RDBMS)概念:建立在关系模型基础上，由多张相互连接的二维表组成的数据库。特点:使用表存储数据，格式统一，便于维护使用SQL语言操作，标准统一，使用方便。2.SQLSQL通用语法SQL语句可以单行或多行书写，以分号结尾.SQL语句可以使用空格/缩进来增强语句的可读性。MySQ
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
shell 笔记_s1=abc,s2=def,[-z‘‘‘]&；&；echo‘$s1‘ echo‘$s2‘的输出是什么 2024云技术运维 linux 面试
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
python毕业设计作品：python闲置物品二手交易平台系统设计与实现毕业设计源代码（Django框架）黄菊华老师毕设资料 python二手交易平台系统
博主介绍：黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，学习后应对毕业设计答辩。项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！如果需要联系我，可以在CSD
python卡方检验计算pvalue值_Python数据科学：卡方检验 CodeWhiz
之前已经介绍的变量分析：①相关分析：一个连续变量与一个连续变量间的关系。②双样本t检验：一个二分分类变量与一个连续变量间的关系。③方差分析：一个多分类分类变量与一个连续变量间的关系。本次介绍：卡方检验：一个二分分类变量或多分类分类变量与一个二分分类变量间的关系。如果其中一个变量的分布随着另一个变量的水平不同而发生变化时，那么两个分类变量就有关系。卡方检验并不能展现出两个分类变量相关性的强弱，只能展
多模态大语言模型(MLLMs)-一般架构（非常详细）零基础入门到精通，收藏这一篇就够了程序员_大白语言模型人工智能自然语言处理
多模态大语言模型(MultimodalLargeLanguageModel,MLLM），在LLM原有的强大泛化和推理能力基础上，进一步引入了多模态信息处理能力。相比于以往的多模态方法，例如以CLIP为代表的判别式，或以OFA为代表的生成式，新兴的MLLM展现出一些典型的特质，在下面这两种特质的加持下，MLLM涌现出一些以往多模态模型所不具备的能力！模型大。MLLM通常具有数十亿的参数量，更多的参数
Pandas教程：详解Pandas数据清洗旦莫 Python Pandas python pandas 数据分析
目录1.引言2.Pandas基础2.1安装与导入2.2创建一个复杂的DataFrame3.数据清洗流程3.1处理缺失值3.1.1删除缺失值3.1.2填充缺失值3.2数据去重3.3数据类型转换4.数据处理与变换4.1添加与删除列4.2数据排序5.数据分组与聚合6.其他数据清洗方法6.1字符串处理6.2时间序列处理6.3数据类型转换1.引言数据清洗是数据科学和数据分析中的一个重要步骤，旨在提升数据的质
FreeSWITCH入门到精通系列（三）：FreeSWITCH基础概念与架构黄宝良 freeswitch 实时音视频 freeswitch
FreeSWITCH入门到精通系列（三）：FreeSWITCH基础概念与架构前言在前两篇博客中，我们介绍了FreeSWITCH的基本概念和安装与配置。本篇文章将深入探讨FreeSWITCH的基础概念和架构，帮助您更好地理解这个强大的通信平台的工作原理。FreeSWITCH基础概念1.什么是FreeSWITCH？FreeSWITCH是一个开源的实时通信平台，提供了创建VoIP（VoiceoverIP
大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了黑客-雨语言模型人工智能自然语言处理学习大模型学习大模型入门大模型教程
在当今人工智能领域，大规模语言模型成为了研究和应用的热点之一。它们以其大规模的参数和强大的性能表现，推动着机器学习和深度学习技术的发展。对于GPT系列大规模语言模型的发展历程，有两点令人印象深刻。第一点是可拓展的训练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量与数据规模的重视:不同于BERT
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】工业相机格图素书数码相机目标检测人工智能
目录知识储备深度相机1TOF2双目视觉3结构光4智能门锁应用5手机应用算法原理相机的成像与标定模型相机标定的实施·标定过程的算法实施相机标定的扩展CCD工业相机、镜头倍率及相关参数计算方法知识储备深度相机1TOF1.1Kinectv2Kinectv2是Microsoft在2014年发售的，如图1-1所示。相比于Kinectv1在硬件和软件上作出了很大的进化，且在深度测量的系统和非系统误差方面表现出
AI学习者的Python快速入门指南 AI科研视界人工智能 python chatgpt
Python已成为AI和数据科学的事实标准编程语言。尽管存在无需编码的解决方案，但学习编程仍然是构建完全定制化AI项目或产品的必要途径。在本文中，我将分享一个Python入门快速指南，帮助初学者进行AI开发。我会先介绍基础知识，然后分享一个带有示例代码的具体实例。图片来自Canva。Python是一种编程语言，也就是说，它是给计算机下达我们无法或不愿亲自执行的精确指令的一种方式[1]。这在自动化特
Vue3+TypeScript从入门到精通系列之：类多态快乐骑行^_^ 日常分享专栏 typescript Vue3 类多态
Vue3+TypeScript从入门到精通系列之：类多态一、TypeScript类多态代码二、TypeScript的类多态转化为JS代码三、查看js输出一、TypeScript类多态代码(()=>{//多态：父类型的引用指向了子类型的对象，不同类型的对象针对相同的方法，产生了不同的行为//定义一个父类classAnimal{name:stringconstructor(name:string){t
python基础学习 agente python python 学习开发语言
第一章标识符1、python被称为胶水语言，可以跟各个代码能一块儿使用爬虫、数据分析web全栈开发、数据科学方向、人工智能的机械学习和深度学习、自动化运维、爬虫、办公自动化python是跨平台的，python是解释型语言，不需要编译，python是面向对象的语言1、print()#print()可以输出数字、字符串、含有运算符的表达式#print()可以将内容输出到显示器、文件#print()输出
Autosar MCAL从入门到精通系列讲解--总目录常学常思 Autosar --MCAL从入门到精通嵌入式硬件 mcu 单片机 Autosar
前言欢迎大家一起来学习Autosar，作为一个小白，在最开始的时候也是一脸茫然，不知道如何去学习，如何下手。在这里，我将记录我所有Autosar学习的过程，问题点，以及分享我的代码供大家参考。最终能让大家快速上手。Mcal：可以去官网下载一、EB1.EBtresos创建工程2.EB生成代码编译---makefile二、TricoreMcal实战系列(EB)这里的博客之前都是用S32DS来配置的，在
Holoviews 创建复杂的可视化布局步入烟尘 Python超入门指南全册 Holoviews python
如何使用Holoviews创建复杂的可视化布局在数据科学和数据可视化领域，Holoviews是一个非常强大的Python库，它可以帮助我们轻松地创建各种复杂的可视化布局。Holoviews提供了一个高层次的接口，使得创建交互式和静态可视化变得简单而直观。本文将介绍如何使用Holoviews来创建复杂的可视化布局，让你的数据以最直观的方式展现出来。安装Holoviews首先，确保你已经安装了Holo
程式语言区分白总Server html python java c++开发语言
程序语言有很多种，每种都有其特定的用途和特点。以下是一些广泛使用的编程语言：1.Python：易于学习，广泛用于数据科学、机器学习、网络开发、自动化等领域。2.Java：广泛应用于企业级应用、安卓开发、大型系统开发等。3.C：一种基础语言，广泛用于系统编程、嵌入式开发、操作系统等领域。4.C++：C语言的扩展，支持面向对象编程，用于游戏开发、高性能应用等。5.JavaScript：主要用于网页前端
双峰高斯分布蒙特卡洛模并画pdf和cdf图 tpHRlIi pdf
双峰高斯分布蒙特卡洛模并画pdf和cdf图可设置双峰组合分布中不同正态参数的分布比例，也可以对多个组合进行计算matlab代码，备注清楚，更改为自己需要的分布比例与参数即可双峰高斯分布蒙特卡洛模并画pdf和cdf图在现代数据科学中，探究数据的分布状态是非常重要的。而在实际应用场景中，数据不一定总是符合单一的分布模型。双峰高斯分布是一种较为常见的数据分布模型，它适用于许多实际场景，比如人口年龄分布、
python从入门到精通：函数人间无解 python 开发语言数据结构数据库 mysql
目录1、函数介绍2、函数的定义3、函数的传入参数4、函数的返回值5、函数说明文档6、函数的嵌套调用7、变量的作用域1、函数介绍函数是组织好的，可重复使用的，用来实现特定功能的代码段。name="zhangsan";length=len(name);print(length)之所以可以随时调用len()（实现统计长度）函数，是因为，它是python内置的函数（提前写好的）。不使用len()函数如何实
【数据获取与读取】JSON & CSV yogurt=b 数据分析 json python
数据分析流程获取数据-读取数据-评估数据-清洗数据-整理数据-分析数据-可视化数据公开数据集飞桨（百度旗下深度学习平台）数据集：https:/aistudio.baidu.com/aistudio/datasetoverview天池（阿里云旗下开发者竞赛平台）:https:/tianchiaiyun.com/dataset/和鲸社区（数据科学开源社区）数据集：htps://www.heywhale
QT之QML从入门到精通（第二章） only-lucky qt 开发语言
本章介绍QML部件（component）和加载（Loader）的基本使用引言importQtQuick2.12importQtQuick.Window2.12importQtQuick.Controls2.12Window{visible:truewidth:640height:480title:qsTr("HelloWorld")Component.onCompleted:{console.lo
Python中的matplotlib库安装教程：多种方法详解代码前哨站 python matplotlib 开发语言
在数据可视化的世界里，matplotlib是一个非常重要的工具库。它提供了一整套绘图功能，帮助我们将数据可视化为图表。无论你是数据科学家、工程师，还是只是在数据处理领域有所涉猎，掌握matplotlib的安装方法都能让你的工作更加高效。本文将详细介绍几种在Python中安装matplotlib的方法。方法一：使用pip安装pip是Python包管理工具，使用它安装matplotlib非常简单。以下
【conda】完整指南：如何配置 Conda 环境与镜像源丶2136 conda conda
目录1.Conda配置概述2.配置镜像源2.1查找合适的镜像源2.2配置镜像源2.3优先级设置3.环境管理3.1设置默认环境路径3.2默认环境3.3环境清理3.4自定义命令4.其他常用配置选项4.1配置日志级别4.2缓存设置4.3自动更新总结conda是一个功能强大的包和环境管理工具，广泛用于数据科学、机器学习和科学计算领域。为了最大化利用conda，了解其配置选项至关重要。本文将深入探讨cond
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方