striver6

教女朋友学时间序列

学习笔记

时间序列

时间戳（timestamp）
固定周期（period）
时间间隔（interval）

一、创建时间序列

1.1 date_range

可以指定开始时间与周期
H：小时
D：天
M：月

import pandas as pd
import numpy as np

从2016-07-01开始，周期为10，间隔为3天，生成的时间序列为下：

rng = pd.date_range('2016-07-01', periods = 10, freq = '3D')
rng

DatetimeIndex(['2016-07-01', '2016-07-04', '2016-07-07', '2016-07-10',
               '2016-07-13', '2016-07-16', '2016-07-19', '2016-07-22',
               '2016-07-25', '2016-07-28'],
              dtype='datetime64[ns]', freq='3D')

其中，起始日期也可以写成’2016 Jul 1’、‘7/1/2016’、‘1/7/2016’、‘2016-07-01’、'2016/07/01’中的任何一种形式：

# TIMES #2016 Jul 1 7/1/2016 1/7/2016 2016-07-01 2016/07/01
rng = pd.date_range('2016 Jul 1', periods = 10, freq = '3D')
rng

DatetimeIndex(['2016-07-01', '2016-07-04', '2016-07-07', '2016-07-10',
               '2016-07-13', '2016-07-16', '2016-07-19', '2016-07-22',
               '2016-07-25', '2016-07-28'],
              dtype='datetime64[ns]', freq='3D')

在Series中，指定index，将时间作为索引，产生随机序列：

time=pd.Series(np.random.randn(20),
           index=pd.date_range(dt.datetime(2016,1,1),periods=20))
print(time)

2016-01-01   -0.129379
2016-01-02    0.164480
2016-01-03   -0.639117
2016-01-04   -0.427224
2016-01-05    2.055133
2016-01-06    1.116075
2016-01-07    0.357426
2016-01-08    0.274249
2016-01-09    0.834405
2016-01-10   -0.005444
2016-01-11   -0.134409
2016-01-12    0.249318
2016-01-13   -0.297842
2016-01-14   -0.128514
2016-01-15    0.063690
2016-01-16   -2.246031
2016-01-17    0.359552
2016-01-18    0.383030
2016-01-19    0.402717
2016-01-20   -0.694068
Freq: D, dtype: float64

1.2 truncate过滤

过滤掉2016-1-10之前的数据：

time.truncate(before='2016-1-10')

2016-01-10   -0.005444
2016-01-11   -0.134409
2016-01-12    0.249318
2016-01-13   -0.297842
2016-01-14   -0.128514
2016-01-15    0.063690
2016-01-16   -2.246031
2016-01-17    0.359552
2016-01-18    0.383030
2016-01-19    0.402717
2016-01-20   -0.694068
Freq: D, dtype: float64

过滤掉2016-1-10之后的数据：

time.truncate(after='2016-1-10')

2016-01-01   -0.129379
2016-01-02    0.164480
2016-01-03   -0.639117
2016-01-04   -0.427224
2016-01-05    2.055133
2016-01-06    1.116075
2016-01-07    0.357426
2016-01-08    0.274249
2016-01-09    0.834405
2016-01-10   -0.005444
Freq: D, dtype: float64

通过时间索引，提取数据：

print(time['2016-01-15'])

0.063690487247

通过切片，将一段时间间隔的数据提取出来：

print(time['2016-01-15':'2016-01-20'])

2016-01-15    0.063690
2016-01-16   -2.246031
2016-01-17    0.359552
2016-01-18    0.383030
2016-01-19    0.402717
2016-01-20   -0.694068
Freq: D, dtype: float64

我们也可以指定起始时间和终止时间，产生时间序列：

data=pd.date_range('2010-01-01','2011-01-01',freq='M')
print(data)

DatetimeIndex(['2010-01-31', '2010-02-28', '2010-03-31', '2010-04-30',
               '2010-05-31', '2010-06-30', '2010-07-31', '2010-08-31',
               '2010-09-30', '2010-10-31', '2010-11-30', '2010-12-31'],
              dtype='datetime64[ns]', freq='M')

参数freq中可以选的数值：

1.3 时间戳

pd.Timestamp('2016-07-10')

Timestamp('2016-07-10 00:00:00')

可以指定更多细节

pd.Timestamp('2016-07-10 10')

Timestamp('2016-07-10 10:00:00')

pd.Timestamp('2016-07-10 10:15')

Timestamp('2016-07-10 10:15:00')

How much detail can you add?

t = pd.Timestamp('2016-07-10 10:15')

1.4 时间区间

2016年的一月份：

pd.Period('2016-01')

Period('2016-01', 'M')

2016年1月1号：

pd.Period('2016-01-01')

Period('2016-01-01', 'D')

1.5 时间加减

TIME OFFSETS

产生一个一天的时间偏移量：

pd.Timedelta('1 day')

Timedelta('1 days 00:00:00')

得到2016-01-01 10:10的后一天时刻：

pd.Period('2016-01-01 10:10') + pd.Timedelta('1 day')

Period('2016-01-02 10:10', 'T')

时间戳加减：

pd.Timestamp('2016-01-01 10:10') + pd.Timedelta('1 day')

Timestamp('2016-01-02 10:10:00')

加15 ns：

pd.Timestamp('2016-01-01 10:10') + pd.Timedelta('15 ns')

Timestamp('2016-01-01 10:10:00.000000015')

在时间间隔刹参数中，我们既可以写成25H，也可以写成1D1H这种通俗的表达：

p1 = pd.period_range('2016-01-01 10:10', freq = '25H', periods = 10)

p2 = pd.period_range('2016-01-01 10:10', freq = '1D1H', periods = 10)

p1

PeriodIndex(['2016-01-01 10:00', '2016-01-02 11:00', '2016-01-03 12:00',
             '2016-01-04 13:00', '2016-01-05 14:00', '2016-01-06 15:00',
             '2016-01-07 16:00', '2016-01-08 17:00', '2016-01-09 18:00',
             '2016-01-10 19:00'],
            dtype='period[25H]', freq='25H')

p2

PeriodIndex(['2016-01-01 10:00', '2016-01-02 11:00', '2016-01-03 12:00',
             '2016-01-04 13:00', '2016-01-05 14:00', '2016-01-06 15:00',
             '2016-01-07 16:00', '2016-01-08 17:00', '2016-01-09 18:00',
             '2016-01-10 19:00'],
            dtype='period[25H]', freq='25H')

1.6 指定索引

rng = pd.date_range('2016 Jul 1', periods = 10, freq = 'D')
rng
pd.Series(range(len(rng)), index = rng)

2016-07-01    0
2016-07-02    1
2016-07-03    2
2016-07-04    3
2016-07-05    4
2016-07-06    5
2016-07-07    6
2016-07-08    7
2016-07-09    8
2016-07-10    9
Freq: D, dtype: int32

构造任意的Series结构时间序列数据：

periods = [pd.Period('2016-01'), pd.Period('2016-02'), pd.Period('2016-03')]
ts = pd.Series(np.random.randn(len(periods)), index = periods)
ts

2016-01   -1.668569
2016-02    0.547351
2016-03    2.537183
Freq: M, dtype: float64

type(ts.index)

pandas.core.indexes.period.PeriodIndex

1.7 时间戳和时间周期可以转换

产生时间周期：

ts = pd.Series(range(10), pd.date_range('07-10-16 8:00', periods = 10, freq = 'H'))
ts

2016-07-10 08:00:00    0
2016-07-10 09:00:00    1
2016-07-10 10:00:00    2
2016-07-10 11:00:00    3
2016-07-10 12:00:00    4
2016-07-10 13:00:00    5
2016-07-10 14:00:00    6
2016-07-10 15:00:00    7
2016-07-10 16:00:00    8
2016-07-10 17:00:00    9
Freq: H, dtype: int32

将时间周期转化为时间戳：

ts_period = ts.to_period()
ts_period

2016-07-10 08:00    0
2016-07-10 09:00    1
2016-07-10 10:00    2
2016-07-10 11:00    3
2016-07-10 12:00    4
2016-07-10 13:00    5
2016-07-10 14:00    6
2016-07-10 15:00    7
2016-07-10 16:00    8
2016-07-10 17:00    9
Freq: H, dtype: int32

时间周期和时间戳区别：

对时间周期的切片操作：

ts_period['2016-07-10 08:30':'2016-07-10 11:45']

2016-07-10 08:00    0
2016-07-10 09:00    1
2016-07-10 10:00    2
2016-07-10 11:00    3
Freq: H, dtype: int32

对时间戳的切片操作结果:

ts['2016-07-10 08:30':'2016-07-10 11:45']

2016-07-10 09:00:00    1
2016-07-10 10:00:00    2
2016-07-10 11:00:00    3
Freq: H, dtype: int32

二、数据重采样

时间数据由一个频率转换到另一个频率
降采样：例如将365天数据变为12个月数据
升采样：相反

import pandas as pd
import numpy as np

从1/1/2011开始，时间间隔为1天，产生90个时间数据：

rng = pd.date_range('1/1/2011', periods=90, freq='D')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts.head()

2011-01-01   -1.547635
2011-01-02    0.726423
2011-01-03    0.098872
2011-01-04   -0.513126
2011-01-05    0.308996
Freq: D, dtype: float64

2.1 降采样

将以上数据降采样为月数据，观察每个月数据之和：

ts.resample('M').sum()

2011-01-31    1.218451
2011-02-28   -8.133711
2011-03-31   -1.648535
Freq: M, dtype: float64

降采样为3天，并求和：

ts.resample('3D').sum()

2011-01-01    0.045643
2011-01-04   -2.255206
2011-01-07    0.571142
2011-01-10    0.835032
2011-01-13   -0.396766
2011-01-16   -1.156253
2011-01-19   -1.286884
2011-01-22    2.883952
2011-01-25    1.566908
2011-01-28    1.435563
2011-01-31    0.311565
2011-02-03   -2.541235
2011-02-06    0.317075
2011-02-09    1.598877
2011-02-12   -1.950509
2011-02-15    2.928312
2011-02-18   -0.733715
2011-02-21    1.674817
2011-02-24   -2.078872
2011-02-27    2.172320
2011-03-02   -2.022104
2011-03-05   -0.070356
2011-03-08    1.276671
2011-03-11   -2.835132
2011-03-14   -1.384113
2011-03-17    1.517565
2011-03-20   -0.550406
2011-03-23    0.773430
2011-03-26    2.244319
2011-03-29    2.951082
Freq: 3D, dtype: float64

计算降采样后数据均值：

day3Ts = ts.resample('3D').mean()
day3Ts

2011-01-01   -0.240780
2011-01-04    0.140980
2011-01-07   -0.041360
2011-01-10   -0.175434
2011-01-13   -0.348187
2011-01-16   -0.098252
2011-01-19    0.675025
2011-01-22    0.368577
2011-01-25    0.081462
2011-01-28    0.284014
2011-01-31   -0.217979
2011-02-03   -0.413876
2011-02-06   -0.801936
2011-02-09   -0.030326
2011-02-12   -0.139332
2011-02-15   -0.288397
2011-02-18   -0.842207
2011-02-21    0.689252
2011-02-24   -0.915056
2011-02-27   -0.164817
2011-03-02    0.273717
2011-03-05   -0.123553
2011-03-08   -0.402591
2011-03-11    0.115541
2011-03-14   -0.401329
2011-03-17    0.687958
2011-03-20    0.674243
2011-03-23   -1.724097
2011-03-26    0.313001
2011-03-29    0.211141
Freq: 3D, dtype: float64

2.2 升采样

直接升采样是有问题的，因为有数据缺失：

print(day3Ts.resample('D').asfreq())

2011-01-01   -0.240780
2011-01-02         NaN
2011-01-03         NaN
2011-01-04    0.140980
2011-01-05         NaN
2011-01-06         NaN
2011-01-07   -0.041360
2011-01-08         NaN
2011-01-09         NaN
2011-01-10   -0.175434
2011-01-11         NaN
2011-01-12         NaN
2011-01-13   -0.348187
2011-01-14         NaN
2011-01-15         NaN
2011-01-16   -0.098252
2011-01-17         NaN
2011-01-18         NaN
2011-01-19    0.675025
2011-01-20         NaN
2011-01-21         NaN
2011-01-22    0.368577
2011-01-23         NaN
2011-01-24         NaN
2011-01-25    0.081462
2011-01-26         NaN
2011-01-27         NaN
2011-01-28    0.284014
2011-01-29         NaN
2011-01-30         NaN
                ...   
2011-02-28         NaN
2011-03-01         NaN
2011-03-02    0.273717
2011-03-03         NaN
2011-03-04         NaN
2011-03-05   -0.123553
2011-03-06         NaN
2011-03-07         NaN
2011-03-08   -0.402591
2011-03-09         NaN
2011-03-10         NaN
2011-03-11    0.115541
2011-03-12         NaN
2011-03-13         NaN
2011-03-14   -0.401329
2011-03-15         NaN
2011-03-16         NaN
2011-03-17    0.687958
2011-03-18         NaN
2011-03-19         NaN
2011-03-20    0.674243
2011-03-21         NaN
2011-03-22         NaN
2011-03-23   -1.724097
2011-03-24         NaN
2011-03-25         NaN
2011-03-26    0.313001
2011-03-27         NaN
2011-03-28         NaN
2011-03-29    0.211141
Freq: D, Length: 88, dtype: float64

这时，我们就要用到下面所讲的插值方法：

2.3 插值方法

ffill 空值取前面的值
bfill 空值取后面的值
interpolate 线性取值

使用ffill插值：

day3Ts.resample('D').ffill(1)

2011-01-01   -0.240780
2011-01-02   -0.240780
2011-01-03         NaN
2011-01-04    0.140980
2011-01-05    0.140980
2011-01-06         NaN
2011-01-07   -0.041360
2011-01-08   -0.041360
2011-01-09         NaN
2011-01-10   -0.175434
2011-01-11   -0.175434
2011-01-12         NaN
2011-01-13   -0.348187
2011-01-14   -0.348187
2011-01-15         NaN
2011-01-16   -0.098252
2011-01-17   -0.098252
2011-01-18         NaN
2011-01-19    0.675025
2011-01-20    0.675025
2011-01-21         NaN
2011-01-22    0.368577
2011-01-23    0.368577
2011-01-24         NaN
2011-01-25    0.081462
2011-01-26    0.081462
2011-01-27         NaN
2011-01-28    0.284014
2011-01-29    0.284014
2011-01-30         NaN
                ...   
2011-02-28   -0.164817
2011-03-01         NaN
2011-03-02    0.273717
2011-03-03    0.273717
2011-03-04         NaN
2011-03-05   -0.123553
2011-03-06   -0.123553
2011-03-07         NaN
2011-03-08   -0.402591
2011-03-09   -0.402591
2011-03-10         NaN
2011-03-11    0.115541
2011-03-12    0.115541
2011-03-13         NaN
2011-03-14   -0.401329
2011-03-15   -0.401329
2011-03-16         NaN
2011-03-17    0.687958
2011-03-18    0.687958
2011-03-19         NaN
2011-03-20    0.674243
2011-03-21    0.674243
2011-03-22         NaN
2011-03-23   -1.724097
2011-03-24   -1.724097
2011-03-25         NaN
2011-03-26    0.313001
2011-03-27    0.313001
2011-03-28         NaN
2011-03-29    0.211141
Freq: D, Length: 88, dtype: float64

使用bfill插值：

day3Ts.resample('D').bfill(1)

2011-01-01    0.015214
2011-01-02         NaN
2011-01-03   -0.751735
2011-01-04   -0.751735
2011-01-05         NaN
2011-01-06    0.190381
2011-01-07    0.190381
2011-01-08         NaN
2011-01-09    0.278344
2011-01-10    0.278344
2011-01-11         NaN
2011-01-12   -0.132255
2011-01-13   -0.132255
2011-01-14         NaN
2011-01-15   -0.385418
2011-01-16   -0.385418
2011-01-17         NaN
2011-01-18   -0.428961
2011-01-19   -0.428961
2011-01-20         NaN
2011-01-21    0.961317
2011-01-22    0.961317
2011-01-23         NaN
2011-01-24    0.522303
2011-01-25    0.522303
2011-01-26         NaN
2011-01-27    0.478521
2011-01-28    0.478521
2011-01-29         NaN
2011-01-30    0.103855
                ...   
2011-02-28         NaN
2011-03-01   -0.674035
2011-03-02   -0.674035
2011-03-03         NaN
2011-03-04   -0.023452
2011-03-05   -0.023452
2011-03-06         NaN
2011-03-07    0.425557
2011-03-08    0.425557
2011-03-09         NaN
2011-03-10   -0.945044
2011-03-11   -0.945044
2011-03-12         NaN
2011-03-13   -0.461371
2011-03-14   -0.461371
2011-03-15         NaN
2011-03-16    0.505855
2011-03-17    0.505855
2011-03-18         NaN
2011-03-19   -0.183469
2011-03-20   -0.183469
2011-03-21         NaN
2011-03-22    0.257810
2011-03-23    0.257810
2011-03-24         NaN
2011-03-25    0.748106
2011-03-26    0.748106
2011-03-27         NaN
2011-03-28    0.983694
2011-03-29    0.983694
Freq: D, Length: 88, dtype: float64

使用interpolate线性取值：

day3Ts.resample('D').interpolate('linear')

2011-01-01    0.015214
2011-01-02   -0.240435
2011-01-03   -0.496085
2011-01-04   -0.751735
2011-01-05   -0.437697
2011-01-06   -0.123658
2011-01-07    0.190381
2011-01-08    0.219702
2011-01-09    0.249023
2011-01-10    0.278344
2011-01-11    0.141478
2011-01-12    0.004611
2011-01-13   -0.132255
2011-01-14   -0.216643
2011-01-15   -0.301030
2011-01-16   -0.385418
2011-01-17   -0.399932
2011-01-18   -0.414447
2011-01-19   -0.428961
2011-01-20    0.034465
2011-01-21    0.497891
2011-01-22    0.961317
2011-01-23    0.814979
2011-01-24    0.668641
2011-01-25    0.522303
2011-01-26    0.507709
2011-01-27    0.493115
2011-01-28    0.478521
2011-01-29    0.353632
2011-01-30    0.228744
                ...   
2011-02-28    0.258060
2011-03-01   -0.207988
2011-03-02   -0.674035
2011-03-03   -0.457174
2011-03-04   -0.240313
2011-03-05   -0.023452
2011-03-06    0.126218
2011-03-07    0.275887
2011-03-08    0.425557
2011-03-09   -0.031310
2011-03-10   -0.488177
2011-03-11   -0.945044
2011-03-12   -0.783820
2011-03-13   -0.622595
2011-03-14   -0.461371
2011-03-15   -0.138962
2011-03-16    0.183446
2011-03-17    0.505855
2011-03-18    0.276080
2011-03-19    0.046306
2011-03-20   -0.183469
2011-03-21   -0.036376
2011-03-22    0.110717
2011-03-23    0.257810
2011-03-24    0.421242
2011-03-25    0.584674
2011-03-26    0.748106
2011-03-27    0.826636
2011-03-28    0.905165
2011-03-29    0.983694
Freq: D, Length: 88, dtype: float64

三、Pandas滑动窗口

为了提升数据的准确性，将某个点的取值扩大到包含这个点的一段区间，用区间来进行判断，这个区间就是窗口。例如想使用2011年1月1日的一个数据，单取这个时间点的数据当然是可行的，但是太过绝对，有没有更好的办法呢？可以选取2010年12月16日到2011年1月15日，通过求均值来评估1月1日这个点的值，2010-12-16到2011-1-15就是一个窗口，窗口的长度window=30.

移动窗口就是窗口向一端滑行，默认是从右往左，每次滑行并不是区间整块的滑行，而是一个单位一个单位的滑行。例如窗口2010-12-16到2011-1-15，下一个窗口并不是2011-1-15到2011-2-15，而是2010-12-17到2011-1-16（假设数据的截取是以天为单位），整体向右移动一个单位，而不是一个窗口。这样统计的每个值始终都是30单位的均值。

也就是我们在统计学中的移动平均法。

%matplotlib inline 
import matplotlib.pylab
import numpy as np
import pandas as pd

指定六百个数据的序列：

df = pd.Series(np.random.randn(600), index = pd.date_range('7/1/2016', freq = 'D', periods = 600))

df.head()

2016-07-01    0.490170
2016-07-02   -0.381746
2016-07-03    0.765849
2016-07-04   -0.513293
2016-07-05   -2.284776
Freq: D, dtype: float64

指定该序列一个单位长度为10的滑块

r = df.rolling(window = 10)
r

Rolling [window=10,center=False,axis=0]

输出滑块内的平均值，窗口中的值从覆盖整个窗口的位置开始产生，在此之前即为NaN,举例如下：窗口大小为10，前9个都不足够为一个一个窗口的长度，因此都无法取值。

#r.max, r.median, r.std, r.skew, r.sum, r.var
print(r.mean())

2016-07-01         NaN
2016-07-02         NaN
2016-07-03         NaN
2016-07-04         NaN
2016-07-05         NaN
2016-07-06         NaN
2016-07-07         NaN
2016-07-08         NaN
2016-07-09         NaN
2016-07-10   -0.731681
2016-07-11   -0.741944
2016-07-12   -0.841750
2016-07-13   -0.824005
2016-07-14   -0.760116
2016-07-15   -0.607035
2016-07-16   -0.669249
2016-07-17   -0.440359
2016-07-18   -0.291586
2016-07-19   -0.226081
2016-07-20    0.099771
2016-07-21   -0.201909
2016-07-22   -0.136984
2016-07-23   -0.219586
2016-07-24   -0.175016
2016-07-25   -0.107554
2016-07-26   -0.065601
2016-07-27   -0.220129
2016-07-28   -0.085098
2016-07-29   -0.114384
2016-07-30   -0.363240
                ...   
2018-01-22    0.076906
2018-01-23    0.133465
2018-01-24    0.301593
2018-01-25    0.147387
2018-01-26    0.046669
2018-01-27    0.211237
2018-01-28    0.305431
2018-01-29    0.263660
2018-01-30    0.050792
2018-01-31    0.035849
2018-02-01    0.106649
2018-02-02    0.231164
2018-02-03   -0.015120
2018-02-04    0.133317
2018-02-05    0.304489
2018-02-06    0.123427
2018-02-07   -0.133892
2018-02-08   -0.184399
2018-02-09   -0.080139
2018-02-10   -0.211622
2018-02-11   -0.177756
2018-02-12   -0.027888
2018-02-13    0.244256
2018-02-14    0.329209
2018-02-15    0.167602
2018-02-16    0.167141
2018-02-17    0.369997
2018-02-18    0.276210
2018-02-19    0.297868
2018-02-20    0.479243
Freq: D, Length: 600, dtype: float64

通过画图库来看原始序列与滑动窗口产生序列的关系图，原始数据用红色表示，移动平均后数据用蓝色点表示：

import matplotlib.pyplot as plt
%matplotlib inline

plt.figure(figsize=(15, 5))

df.plot(style='r--')
df.rolling(window=10).mean().plot(style='b')

可以看到，原始值浮动差异较大，而移动平均后数值较为平稳。

四、数据平稳性与差分法

平稳性：

平稳性就是要求经由样本时间序列所得到的拟合曲线在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去
平稳性要求序列的均值和方差不发生明显变化

严平稳与弱平稳：

严平稳：严平稳表示的分布不随时间的改变而改变。
如：白噪声（正态），无论怎么取，都是期望为0，方差为1
弱平稳：期望与相关系数（依赖性）不变
未来某时刻的t的值Xt就要依赖于它的过去信息，所以需要依赖性

差分法：时间序列在t与t-1时刻的差值：

导入包，设置绘图风格：

%load_ext autoreload
%autoreload 2
%matplotlib inline
%config InlineBackend.figure_format='retina'

from __future__ import absolute_import, division, print_function
# http://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost
import sys
import os

import pandas as pd
import numpy as np

# # Remote Data Access
# import pandas_datareader.data as web
# import datetime
# # reference: https://pandas-datareader.readthedocs.io/en/latest/remote_data.html

# TSA from Statsmodels
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.tsa.api as smt

# Display and Plotting
import matplotlib.pylab as plt
import seaborn as sns

pd.set_option('display.float_format', lambda x: '%.5f' % x) # pandas
np.set_printoptions(precision=5, suppress=True) # numpy

pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)

# seaborn plotting style
sns.set(style='ticks', context='poster')

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload

Read the data：美国消费者信心指数

Sentiment = 'sentiment.csv'
Sentiment = pd.read_csv(Sentiment, index_col=0, parse_dates=[0])

Sentiment.head()

.dataframe thead th {
    text-align: left;
}

.dataframe tbody tr th {
    vertical-align: top;
}

	UMCSENT
DATE
2000-01-01	112.00000
2000-02-01	111.30000
2000-03-01	107.10000
2000-04-01	109.20000
2000-05-01	110.70000

Select the series from 2005 - 2016：

sentiment_short = Sentiment.loc['2005':'2016']

绘制消费者信心指数随着时间的变化情况：

sentiment_short.plot(figsize=(12,8))
plt.legend(bbox_to_anchor=(1.25, 0.5))
plt.title("Consumer Sentiment")
sns.despine()

可见数据变化较不稳定，我们来做一阶差分和二阶差分：

sentiment_short['diff_1'] = sentiment_short['UMCSENT'].diff(1)

sentiment_short['diff_2'] = sentiment_short['diff_1'].diff(1)

sentiment_short.plot(subplots=True, figsize=(18, 12))

D:\Anaconda\lib\site-packages\ipykernel_launcher.py:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.
D:\Anaconda\lib\site-packages\ipykernel_launcher.py:3: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  This is separate from the ipykernel package so we can avoid doing imports until

array([,
       ,
       ], dtype=object)

五、ARIMA模型

5.1 AR模型

自回归模型（AR）：

描述当前值与历史值之间的关系，用变量自身的历史时间数据对自身进行预测
自回归模型必须满足平稳性的要求
p阶自回归过程的公式定义：

是当前值是常数项 P 是阶数是自相关系数是误差

自回归模型的限制：

自回归模型是用自身的数据来进行预测
必须具有平稳性
必须具有自相关性，如果自相关系数(φi)小于0.5，则不宜采用
自回归只适用于预测与自身前期相关的现象

5.2 MA模型

移动平均模型（MA）

移动平均模型关注的是自回归模型中的误差项的累加
q阶自回归过程的公式定义：

移动平均法能有效地消除预测中的随机波动

5.3 ARMA模型

自回归移动平均模型（ARMA）

自回归与移动平均的结合
公式定义：

5.4 ARIMA模型

ARIMA(p，d，q)模型全称为差分自回归移动平均模型
(Autoregressive Integrated Moving Average Model,简记ARIMA)

AR是自回归， p为自回归项； MA为移动平均q为移动平均项数，d为时间序列成为平稳时所做的差分次数，一般做一阶差分就够了，很少有做二阶差分的
原理：将非平稳时间序列转化为平稳时间序列然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型

5.5 相关函数评估(选择p、q值)方法

1.自相关函数ACF(autocorrelation function)

有序的随机变量序列与其自身相比较自相关函数反映了同一序列在不同时序的取值之间的相关性
公式：

Pk的取值范围为[-1,1]

2.偏自相关函数(PACF)(partial autocorrelation function)

对于一个平稳AR§模型，求出滞后k自相关系数p(k)时实际上得到并不是x(t)与x(t-k)之间单纯的相关关系
x(t)同时还会受到中间k-1个随机变量x(t-1)、x(t-2)、……、x(t-k+1)的影响而这k-1个随机变量又都和x(t-k)具有相关关系
所以自相关系数p(k)里实际掺杂了其他变量对x(t)与x(t-k)的影响
剔除了中间k-1个随机变量x(t-1)、x(t-2)、……、x(t-k+1)的干扰之后x(t-k)对x(t)影响的相关程度。
ACF还包含了其他变量的影响而偏自相关系数PACF是严格这两个变量之间的相关性

3.ARIMA(p，d，q)阶数确定：

截尾：落在置信区间内（95%的点都符合该规则）

ARIMA(p，d，q)阶数确定：

AR§ 看PACF
MA(q) 看ACF

4.利用AIC与BIC准则: 选择参数p、q

AIC:赤池信息准则（Akaike Information Criterion，AIC）
??? = 2? − 2ln(?)
BIC:贝叶斯信息准则（Bayesian Information Criterion，BIC）
??? = ??? ? − 2ln(?)
k为模型参数个数，n为样本数量，L为似然函数

5.模型残差检验：

ARIMA模型的残差是否是平均值为0且方差为常数的正态分布
QQ图：线性即正态分布

5.5 ARIMA建模流程：

将序列平稳（差分法确定d）
p和q阶数确定：ACF与PACF
ARIMA（p,d,q）

六、实战分析

6.1 数据’sentiment.csv’ARIMA模型

接上面数据定义：

del sentiment_short['diff_2']
del sentiment_short['diff_1']
sentiment_short.head()
print (type(sentiment_short))

绘制ACF图、PACF图确定p、q值，其中阴影部分代表p、q的置信区间：

fig = plt.figure(figsize=(12,8))

ax1 = fig.add_subplot(211)
fig = sm.graphics.tsa.plot_acf(sentiment_short, lags=20,ax=ax1)
ax1.xaxis.set_ticks_position('bottom')
fig.tight_layout();

ax2 = fig.add_subplot(212)
fig = sm.graphics.tsa.plot_pacf(sentiment_short, lags=20, ax=ax2)
ax2.xaxis.set_ticks_position('bottom')
fig.tight_layout();

使用散点图绘制原始数据和k阶差分数据之间的关系，并求出相关系数：

lags=9
ncols=3
nrows=int(np.ceil(lags/ncols))
fig, axes = plt.subplots(ncols=ncols, nrows=nrows, figsize=(4*ncols, 4*nrows))
for ax, lag in zip(axes.flat, np.arange(1,lags+1, 1)):
    lag_str = 't-{}'.format(lag)
    X = (pd.concat([sentiment_short, sentiment_short.shift(-lag)], axis=1,
                   keys=['y'] + [lag_str]).dropna())

    X.plot(ax=ax, kind='scatter', y='y', x=lag_str);
    corr = X.corr().as_matrix()[0][1]
    ax.set_ylabel('Original')
    ax.set_title('Lag: {} (corr={:.2f})'.format(lag_str, corr));
    ax.set_aspect('equal');
    sns.despine();
fig.tight_layout();

在下图，分别绘制原始数据的残差图、直方图、ACF图和PACF图：

def tsplot(y, lags=None, title='', figsize=(14, 8)):
   
    fig = plt.figure(figsize=figsize)
    layout = (2, 2)
    ts_ax   = plt.subplot2grid(layout, (0, 0))
    hist_ax = plt.subplot2grid(layout, (0, 1))
    acf_ax  = plt.subplot2grid(layout, (1, 0))
    pacf_ax = plt.subplot2grid(layout, (1, 1))
    
    y.plot(ax=ts_ax)
    ts_ax.set_title(title)
    y.plot(ax=hist_ax, kind='hist', bins=25)
    hist_ax.set_title('Histogram')
    smt.graphics.plot_acf(y, lags=lags, ax=acf_ax)
    smt.graphics.plot_pacf(y, lags=lags, ax=pacf_ax)
    [ax.set_xlim(0) for ax in [acf_ax, pacf_ax]]
    sns.despine()
    plt.tight_layout()
    return ts_ax, acf_ax, pacf_ax

tsplot(sentiment_short, title='Consumer Sentiment', lags=36);

6.2 数据“series1.csv”ARIMA模型

导入包，载入新数据文件：

%load_ext autoreload
%autoreload 2
%matplotlib inline
%config InlineBackend.figure_format='retina'

from __future__ import absolute_import, division, print_function

import sys
import os

import pandas as pd
import numpy as np

# TSA from Statsmodels
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.tsa.api as smt

# Display and Plotting
import matplotlib.pylab as plt
import seaborn as sns

pd.set_option('display.float_format', lambda x: '%.5f' % x) # pandas
np.set_printoptions(precision=5, suppress=True) # numpy

pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)

# seaborn plotting style
sns.set(style='ticks', context='poster')

D:\Anaconda\lib\site-packages\statsmodels\compat\pandas.py:56: FutureWarning: The pandas.core.datetools module is deprecated and will be removed in a future version. Please use the pandas.tseries module instead.
  from pandas.core import datetools

filename_ts = 'series1.csv'
ts_df = pd.read_csv(filename_ts, index_col=0, parse_dates=[0])

n_sample = ts_df.shape[0]

查看数据：

print(ts_df.shape)
print(ts_df.head())

(120, 1)
              value
2006-06-01  0.21507
2006-07-01  1.14225
2006-08-01  0.08077
2006-09-01 -0.73952
2006-10-01  0.53552

Create a training sample and testing sample before analyzing the series

n_train=int(0.95*n_sample)+1
n_forecast=n_sample-n_train
#ts_df
ts_train = ts_df.iloc[:n_train]['value']
ts_test = ts_df.iloc[n_train:]['value']
print(ts_train.shape)
print(ts_test.shape)
print("Training Series:", "\n", ts_train.tail(), "\n")
print("Testing Series:", "\n", ts_test.head())

(115,)
(5,)
Training Series: 
 2015-08-01    0.60371
2015-09-01   -1.27372
2015-10-01   -0.93284
2015-11-01    0.08552
2015-12-01    1.20534
Name: value, dtype: float64 

Testing Series: 
 2016-01-01    2.16411
2016-02-01    0.95226
2016-03-01    0.36485
2016-04-01   -2.26487
2016-05-01   -2.38168
Name: value, dtype: float64

分别绘制原始数据的残差图、直方图、ACF图和PACF图：

def tsplot(y, lags=None, title='', figsize=(14, 8)):
    
    fig = plt.figure(figsize=figsize)
    layout = (2, 2)
    ts_ax   = plt.subplot2grid(layout, (0, 0))
    hist_ax = plt.subplot2grid(layout, (0, 1))
    acf_ax  = plt.subplot2grid(layout, (1, 0))
    pacf_ax = plt.subplot2grid(layout, (1, 1))
    
    y.plot(ax=ts_ax)
    ts_ax.set_title(title)
    y.plot(ax=hist_ax, kind='hist', bins=25)
    hist_ax.set_title('Histogram')
    smt.graphics.plot_acf(y, lags=lags, ax=acf_ax)
    smt.graphics.plot_pacf(y, lags=lags, ax=pacf_ax)
    [ax.set_xlim(0) for ax in [acf_ax, pacf_ax]]
    sns.despine()
    fig.tight_layout()
    return ts_ax, acf_ax, pacf_ax

tsplot(ts_train, title='A Given Training Series', lags=20);

Model Estimation

Fit the model

arima200 = sm.tsa.SARIMAX(ts_train, order=(2,0,0))
model_results = arima200.fit()

计算AIC、BIC值：

import itertools

p_min = 0
d_min = 0
q_min = 0
p_max = 4
d_max = 0
q_max = 4

# Initialize a DataFrame to store the results
results_bic = pd.DataFrame(index=['AR{}'.format(i) for i in range(p_min,p_max+1)],
                           columns=['MA{}'.format(i) for i in range(q_min,q_max+1)])

for p,d,q in itertools.product(range(p_min,p_max+1),
                               range(d_min,d_max+1),
                               range(q_min,q_max+1)):
    if p==0 and d==0 and q==0:
        results_bic.loc['AR{}'.format(p), 'MA{}'.format(q)] = np.nan
        continue
    
    try:
        model = sm.tsa.SARIMAX(ts_train, order=(p, d, q),
                               #enforce_stationarity=False,
                               #enforce_invertibility=False,
                              )
        results = model.fit()
        results_bic.loc['AR{}'.format(p), 'MA{}'.format(q)] = results.bic
    except:
        continue
results_bic = results_bic[results_bic.columns].astype(float)

D:\Anaconda\lib\site-packages\statsmodels\tsa\statespace\tools.py:405: RuntimeWarning: invalid value encountered in sqrt
  x = r / ((1 - r**2)**0.5)
D:\Anaconda\lib\site-packages\statsmodels\base\model.py:496: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
  "Check mle_retvals", ConvergenceWarning)
D:\Anaconda\lib\site-packages\statsmodels\tools\numdiff.py:96: RuntimeWarning: invalid value encountered in maximum
  h = EPS**(1. / s) * np.maximum(np.abs(x), 0.1)
D:\Anaconda\lib\site-packages\statsmodels\base\model.py:496: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
  "Check mle_retvals", ConvergenceWarning)
D:\Anaconda\lib\site-packages\statsmodels\base\model.py:496: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
  "Check mle_retvals", ConvergenceWarning)
D:\Anaconda\lib\site-packages\statsmodels\base\model.py:496: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
  "Check mle_retvals", ConvergenceWarning)
D:\Anaconda\lib\site-packages\statsmodels\base\model.py:496: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
  "Check mle_retvals", ConvergenceWarning)
D:\Anaconda\lib\site-packages\statsmodels\base\model.py:496: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
  "Check mle_retvals", ConvergenceWarning)
D:\Anaconda\lib\site-packages\statsmodels\base\model.py:496: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
  "Check mle_retvals", ConvergenceWarning)

绘制AIC、BIC值热图：

fig, ax = plt.subplots(figsize=(10, 8))
ax = sns.heatmap(results_bic,
                 mask=results_bic.isnull(),
                 ax=ax,
                 annot=True,
                 fmt='.2f',
                 );
ax.set_title('BIC');

Alternative model selection method, limited to only searching AR and MA parameters

train_results = sm.tsa.arma_order_select_ic(ts_train, ic=['aic', 'bic'], trend='nc', max_ar=4, max_ma=4)

print('AIC', train_results.aic_min_order)
print('BIC', train_results.bic_min_order)

D:\Anaconda\lib\site-packages\statsmodels\base\model.py:473: HessianInversionWarning: Inverting hessian failed, no bse or cov_params available
  'available', HessianInversionWarning)
D:\Anaconda\lib\site-packages\statsmodels\base\model.py:496: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
  "Check mle_retvals", ConvergenceWarning)
D:\Anaconda\lib\site-packages\statsmodels\base\model.py:496: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
  "Check mle_retvals", ConvergenceWarning)

AIC (4, 2)
BIC (1, 1)

D:\Anaconda\lib\site-packages\statsmodels\base\model.py:496: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
  "Check mle_retvals", ConvergenceWarning)

残差分析正态分布 QQ图线性

model_results.plot_diagnostics(figsize=(16, 12));

D:\Anaconda\lib\site-packages\matplotlib\axes\_axes.py:6462: UserWarning: The 'normed' kwarg is deprecated, and has been replaced by the 'density' kwarg.
  warnings.warn("The 'normed' kwarg is deprecated, and has been "

七、维基百科词条EDA

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
%matplotlib inline

附：数据文件
提取码：ryno

读取关于维基百科点击量的数据：

train = pd.read_csv('train_1.csv').fillna(0)
train.head()

.dataframe thead th {
    text-align: left;
}

.dataframe tbody tr th {
    vertical-align: top;
}

	Page	2015-07-01	2015-07-02	2015-07-03	2015-07-04	2015-07-05	2015-07-06	2015-07-07	2015-07-08	2015-07-09	...	2016-12-22	2016-12-23	2016-12-24	2016-12-25	2016-12-26	2016-12-27	2016-12-28	2016-12-29	2016-12-30	2016-12-31
0	2NE1_zh.wikipedia.org_all-access_spider	18.0	11.0	5.0	13.0	14.0	9.0	9.0	22.0	26.0	...	32.0	63.0	15.0	26.0	14.0	20.0	22.0	19.0	18.0	20.0
1	2PM_zh.wikipedia.org_all-access_spider	11.0	14.0	15.0	18.0	11.0	13.0	22.0	11.0	10.0	...	17.0	42.0	28.0	15.0	9.0	30.0	52.0	45.0	26.0	20.0
2	3C_zh.wikipedia.org_all-access_spider	1.0	0.0	1.0	1.0	0.0	4.0	0.0	3.0	4.0	...	3.0	1.0	1.0	7.0	4.0	4.0	6.0	3.0	4.0	17.0
3	4minute_zh.wikipedia.org_all-access_spider	35.0	13.0	10.0	94.0	4.0	26.0	14.0	9.0	11.0	...	32.0	10.0	26.0	27.0	16.0	11.0	17.0	19.0	10.0	11.0
4	52_Hz_I_Love_You_zh.wikipedia.org_all-access_s...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	...	48.0	9.0	25.0	13.0	3.0	11.0	27.0	13.0	36.0	10.0

5 rows × 551 columns

其中，左边一列是词条，右边的是随着时间变化的点击率。假若我们要通过这些记录数据预测以后时间的点击量，接下来先分析数据，对数据进行一些可视化展示：

查看数据信息：

train.info()


RangeIndex: 145063 entries, 0 to 145062
Columns: 551 entries, Page to 2016-12-31
dtypes: float64(550), object(1)
memory usage: 609.8+ MB

可以看到，数据量还是很大的，一共占了609.8+ MB，但这也只是取了维基百科的一小部分。一共有145063行，551列，即145063个词条的551个时间点下的点击量。

我们看到数据都是浮点型形式保存，因为没有小数，我们没必要保存为浮点型，并且浮点型是非常占用内存的。整体相对会好很多，我们可以将其转化为整型：

for col in train.columns[1:]:
    train[col] = pd.to_numeric(train[col],downcast='integer')
train.head()

.dataframe thead th {
    text-align: left;
}

.dataframe tbody tr th {
    vertical-align: top;
}

	Page	2015-07-01	2015-07-02	2015-07-03	2015-07-04	2015-07-05	2015-07-06	2015-07-07	2015-07-08	2015-07-09	...	2016-12-22	2016-12-23	2016-12-24	2016-12-25	2016-12-26	2016-12-27	2016-12-28	2016-12-29	2016-12-30	2016-12-31
0	2NE1_zh.wikipedia.org_all-access_spider	18	11	5	13	14	9	9	22	26	...	32	63	15	26	14	20	22	19	18	20
1	2PM_zh.wikipedia.org_all-access_spider	11	14	15	18	11	13	22	11	10	...	17	42	28	15	9	30	52	45	26	20
2	3C_zh.wikipedia.org_all-access_spider	1	0	1	1	0	4	0	3	4	...	3	1	1	7	4	4	6	3	4	17
3	4minute_zh.wikipedia.org_all-access_spider	35	13	10	94	4	26	14	9	11	...	32	10	26	27	16	11	17	19	10	11
4	52_Hz_I_Love_You_zh.wikipedia.org_all-access_s...	0	0	0	0	0	0	0	0	0	...	48	9	25	13	3	11	27	13	36	10

5 rows × 551 columns

查看修改为整型后的数据信息：

train.info()


RangeIndex: 145063 entries, 0 to 145062
Columns: 551 entries, Page to 2016-12-31
dtypes: int32(550), object(1)
memory usage: 305.5+ MB

效果很明显，当数据从浮点型改为整型后，占用内存从609.8+ MB变为了305.5+ MB，缩小了一半。

统计不同国家出现的词条的频数：

def get_language(page):
    res = re.search('[a-z][a-z].wikipedia.org',page)
    #print (res.group()[0:2])
    if res:
        return res.group()[0:2]
    return 'na'

train['lang'] = train.Page.map(get_language)

from collections import Counter

print(Counter(train.lang))

Counter({'en': 24108, 'ja': 20431, 'de': 18547, 'na': 17855, 'fr': 17802, 'zh': 17229, 'ru': 15022, 'es': 14069})

可见英国有24108个，中国有17229个，等等。当前国家出现错误的时候，我们指定为na值。

基于国家对所有词条进行划分：

lang_sets = {}
lang_sets['en'] = train[train.lang=='en'].iloc[:,0:-1]
lang_sets['ja'] = train[train.lang=='ja'].iloc[:,0:-1]
lang_sets['de'] = train[train.lang=='de'].iloc[:,0:-1]
lang_sets['na'] = train[train.lang=='na'].iloc[:,0:-1]
lang_sets['fr'] = train[train.lang=='fr'].iloc[:,0:-1]
lang_sets['zh'] = train[train.lang=='zh'].iloc[:,0:-1]
lang_sets['ru'] = train[train.lang=='ru'].iloc[:,0:-1]
lang_sets['es'] = train[train.lang=='es'].iloc[:,0:-1]

sums = {}
for key in lang_sets:
    sums[key] = lang_sets[key].iloc[:,1:].sum(axis=0) / lang_sets[key].shape[0]

来观察不同国家点击量总数随时间变化的情况：

days = [r for r in range(sums['en'].shape[0])]

fig = plt.figure(1,figsize=[10,10])
plt.ylabel('Views per Page')
plt.xlabel('Day')
plt.title('Pages in Different Languages')
labels={'en':'English','ja':'Japanese','de':'German',
        'na':'Media','fr':'French','zh':'Chinese',
        'ru':'Russian','es':'Spanish'
       }

for key in sums:
    plt.plot(days,sums[key],label = labels[key] )
    
plt.legend()
plt.show()

可以看出，英文要明显比其他语言要高一些。其他语言点击率曲线有时候会有奇怪，像粉色的俄罗斯，在第400天左右的时候发生了突变，阅读量开始猛增，可能是在这个时候发生了一些国民性的重大事件。

而中国整体点击量比较低，这也是合乎情理的。因为大家用的一般都是百度嘛，维基百科不常用。Goolge也被屏蔽了，百度百科处于垄断地位。

由于不同国家的词频点击量差异较大，所以我们可以分国家建模。

当然，我们也可以分词条进行建模，随机选取词条，观察点击量随时间变化情况：

def plot_entry(key,idx):
    data = lang_sets[key].iloc[idx,1:]
    fig = plt.figure(1,figsize=(10,5))
    plt.plot(days,data)
    plt.xlabel('day')
    plt.ylabel('views')
    plt.title(train.iloc[lang_sets[key].index[idx],0])
    
    plt.show()

idx = [1, 5, 10, 50, 100, 250,500, 750,1000,1500,2000,3000,4000,5000]
for i in idx:
    plot_entry('en',i)

可以看出，对于每个词条都是有着一定的时间热度的。比如说第一个，在前500天都是默默无闻的，突然在第500天爆发，且爆发量很大。针对很多词条来说，都会呈现出这样一种趋势。

我们也可以对不同国家的词条点击量进行排序，一次推断大众的关注点，即热点：

npages = 5
top_pages = {}
for key in lang_sets:
    print(key)
    sum_set = pd.DataFrame(lang_sets[key][['Page']])
    sum_set['total'] = lang_sets[key].sum(axis=1)
    sum_set = sum_set.sort_values('total',ascending=False)
    print(sum_set.head(10))
    top_pages[key] = sum_set.index[0]
    print('\n\n')

en
                                                    Page        total
38573   Main_Page_en.wikipedia.org_all-access_all-agents  12066181102
9774       Main_Page_en.wikipedia.org_desktop_all-agents   8774497458
74114   Main_Page_en.wikipedia.org_mobile-web_all-agents   3153984882
39180  Special:Search_en.wikipedia.org_all-access_all...   1304079353
10403  Special:Search_en.wikipedia.org_desktop_all-ag...   1011847748
74690  Special:Search_en.wikipedia.org_mobile-web_all...    292162839
39172  Special:Book_en.wikipedia.org_all-access_all-a...    133993144
10399   Special:Book_en.wikipedia.org_desktop_all-agents    133285908
33644       Main_Page_en.wikipedia.org_all-access_spider    129020407
34257  Special:Search_en.wikipedia.org_all-access_spider    124310206

ja
                                                     Page      total
120336      メインページ_ja.wikipedia.org_all-access_all-agents  210753795
86431          メインページ_ja.wikipedia.org_desktop_all-agents  134147415
123025       特別:検索_ja.wikipedia.org_all-access_all-agents   70316929
89202           特別:検索_ja.wikipedia.org_desktop_all-agents   69215206
57309       メインページ_ja.wikipedia.org_mobile-web_all-agents   66459122
119609    特別:最近の更新_ja.wikipedia.org_all-access_all-agents   17662791
88897        特別:最近の更新_ja.wikipedia.org_desktop_all-agents   17627621
119625        真田信繁_ja.wikipedia.org_all-access_all-agents   10793039
123292  特別:外部リンク検索_ja.wikipedia.org_all-access_all-agents   10331191
89463      特別:外部リンク検索_ja.wikipedia.org_desktop_all-agents   10327917

de
                                                     Page       total
139119  Wikipedia:Hauptseite_de.wikipedia.org_all-acce...  1603934248
116196  Wikipedia:Hauptseite_de.wikipedia.org_mobile-w...  1112689084
67049   Wikipedia:Hauptseite_de.wikipedia.org_desktop_...   426992426
140151  Spezial:Suche_de.wikipedia.org_all-access_all-...   223425944
66736   Spezial:Suche_de.wikipedia.org_desktop_all-agents   219636761
140147  Spezial:Anmelden_de.wikipedia.org_all-access_a...    40291806
138800  Special:Search_de.wikipedia.org_all-access_all...    39881543
68104   Spezial:Anmelden_de.wikipedia.org_desktop_all-...    35355226
68511   Special:MyPage/toolserverhelferleinconfig.js_d...    32584955
137765  Hauptseite_de.wikipedia.org_all-access_all-agents    31732458

na
                                                    Page     total
45071  Special:Search_commons.wikimedia.org_all-acces...  67150638
81665  Special:Search_commons.wikimedia.org_desktop_a...  63349756
45056  Special:CreateAccount_commons.wikimedia.org_al...  53795386
45028  Main_Page_commons.wikimedia.org_all-access_all...  52732292
81644  Special:CreateAccount_commons.wikimedia.org_de...  48061029
81610  Main_Page_commons.wikimedia.org_desktop_all-ag...  39160923
46078  Special:RecentChangesLinked_commons.wikimedia....  28306336
45078  Special:UploadWizard_commons.wikimedia.org_all...  23733805
81671  Special:UploadWizard_commons.wikimedia.org_des...  22008544
82680  Special:RecentChangesLinked_commons.wikimedia....  21915202

fr
                                                     Page      total
27330   Wikipédia:Accueil_principal_fr.wikipedia.org_a...  868480667
55104   Wikipédia:Accueil_principal_fr.wikipedia.org_m...  611302821
7344    Wikipédia:Accueil_principal_fr.wikipedia.org_d...  239589012
27825   Spécial:Recherche_fr.wikipedia.org_all-access_...   95666374
8221    Spécial:Recherche_fr.wikipedia.org_desktop_all...   88448938
26500   Sp?cial:Search_fr.wikipedia.org_all-access_all...   76194568
6978    Sp?cial:Search_fr.wikipedia.org_desktop_all-ag...   76185450
131296  Wikipédia:Accueil_principal_fr.wikipedia.org_a...   63860799
26993   Organisme_de_placement_collectif_en_valeurs_mo...   36647929
7213    Organisme_de_placement_collectif_en_valeurs_mo...   36624145

zh
                                                     Page      total
28727   Wikipedia:首页_zh.wikipedia.org_all-access_all-a...  123694312
61350    Wikipedia:首页_zh.wikipedia.org_desktop_all-agents   66435641
105844  Wikipedia:首页_zh.wikipedia.org_mobile-web_all-a...   50887429
28728   Special:搜索_zh.wikipedia.org_all-access_all-agents   48678124
61351      Special:搜索_zh.wikipedia.org_desktop_all-agents   48203843
28089   Running_Man_zh.wikipedia.org_all-access_all-ag...   11485845
30960   Special:链接搜索_zh.wikipedia.org_all-access_all-a...   10320403
63510    Special:链接搜索_zh.wikipedia.org_desktop_all-agents   10320336
60711     Running_Man_zh.wikipedia.org_desktop_all-agents    7968443
30446    瑯琊榜_(電視劇)_zh.wikipedia.org_all-access_all-agents    5891589

ru
                                                     Page       total
99322   Заглавная_страница_ru.wikipedia.org_all-access...  1086019452
103123  Заглавная_страница_ru.wikipedia.org_desktop_al...   742880016
17670   Заглавная_страница_ru.wikipedia.org_mobile-web...   327930433
99537   Служебная:Поиск_ru.wikipedia.org_all-access_al...   103764279
103349  Служебная:Поиск_ru.wikipedia.org_desktop_all-a...    98664171
100414  Служебная:Ссылки_сюда_ru.wikipedia.org_all-acc...    25102004
104195  Служебная:Ссылки_сюда_ru.wikipedia.org_desktop...    25058155
97670   Special:Search_ru.wikipedia.org_all-access_all...    24374572
101457  Special:Search_ru.wikipedia.org_desktop_all-ag...    21958472
98301   Служебная:Вход_ru.wikipedia.org_all-access_all...    12162587

es
                                                     Page      total
92205   Wikipedia:Portada_es.wikipedia.org_all-access_...  751492304
95855   Wikipedia:Portada_es.wikipedia.org_mobile-web_...  565077372
90810   Especial:Buscar_es.wikipedia.org_all-access_al...  194491245
71199   Wikipedia:Portada_es.wikipedia.org_desktop_all...  165439354
69939   Especial:Buscar_es.wikipedia.org_desktop_all-a...  160431271
94389   Especial:Buscar_es.wikipedia.org_mobile-web_al...   34059966
90813   Especial:Entrar_es.wikipedia.org_all-access_al...   33983359
143440  Wikipedia:Portada_es.wikipedia.org_all-access_...   31615409
93094   Lali_Espósito_es.wikipedia.org_all-access_all-...   26602688
69942   Especial:Entrar_es.wikipedia.org_desktop_all-a...   25747141

绘图观察这些热点随时间变化情况：

for key in top_pages:
    fig = plt.figure(1,figsize=(10,5))
    cols = train.columns
    cols = cols[1:-1]
    data = train.loc[top_pages[key],cols]
    plt.plot(days,data)
    plt.xlabel('Days')
    plt.ylabel('Views')
    plt.title(train.loc[top_pages[key],'Page'])
    plt.show()

你可能感兴趣的:(时间序列)

Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
Prometheus运维六 PromQL查询语言详解及操作安顾里 Prometheus 监控类大数据 kubernetes 运维 linux
海阔凭鱼跃，天高任鸟飞Prometheus官网：https://prometheus.io/文章目录1.什么是PromQL?2.PromQL的基本使用2.1时间序列选择器2.1.1瞬时向量选择器2.2区间向量选择器2.2.1范围向量选择器2.2.2时间位移操作2.2.3使用聚合操作2.3标量和字符串3.PromQL操作符4.内置常用函数5.HTTPAPI操作PromQL6.使用建议1.什么是Pro
基于Prometheus和Grafana的现代服务器监控体系构建 golove666 运维 prometheus grafana 服务器
构建一个基于Prometheus和Grafana的现代服务器监控体系涉及多个步骤。以下是大体的流程和步骤说明：1.Prometheus监控系统Prometheus是一个开源的系统监控和报警工具，专门设计用于抓取时间序列数据。1.1Prometheus的安装Docker安装Prometheusdockerrun-d--name=prometheus-p9090:9090prom/prometheus
平滑法时间序列模型原理及Python实践 AI智博信息数据分析与挖掘 python 人工智能
平滑法时间序列模型原理主要涉及通过一定的算法对时间序列数据进行平滑处理，以消除或减弱数据中的随机波动和噪声，从而揭示出数据中的长期趋势和季节性变化，进而对未来数据进行预测。以下是平滑法时间序列模型的详细原理：一、基本原理平滑法时间序列模型基于对历史数据的平滑处理，通过对数据的平均或加权平均，去除数据中的随机波动，使得时间序列数据更加平滑，便于分析和预测。这种方法能够帮助我们更好地理解数据的长期趋势
Pandas教程：详解Pandas数据清洗旦莫 Python Pandas python pandas 数据分析
目录1.引言2.Pandas基础2.1安装与导入2.2创建一个复杂的DataFrame3.数据清洗流程3.1处理缺失值3.1.1删除缺失值3.1.2填充缺失值3.2数据去重3.3数据类型转换4.数据处理与变换4.1添加与删除列4.2数据排序5.数据分组与聚合6.其他数据清洗方法6.1字符串处理6.2时间序列处理6.3数据类型转换1.引言数据清洗是数据科学和数据分析中的一个重要步骤，旨在提升数据的质
时序预测|基于粒子群优化支持向量机的时间序列预测Matlab程序PSO-SVM 单变量和多变量含基础模型机器不会学习CL 智能优化算法时间序列预测支持向量机 matlab 算法
时序预测|基于粒子群优化支持向量机的时间序列预测Matlab程序PSO-SVM单变量和多变量含基础模型文章目录一、基本原理1.问题定义2.数据准备3.SVM模型构建4.粒子群优化（PSO）5.优化与模型训练6.模型评估与预测7.流程总结8.MATLAB实现概述二、实验结果三、核心代码四、代码获取五、总结时序预测|基于粒子群优化支持向量机的时间序列预测Matlab程序PSO-SVM单变量和多变量含基
R语言自学笔记-2内置数据集实验室长工
#b站视频——R语言入门与数据分析#内置数据集#固定格式的数据（矩阵、数据框或一个时间序列等）#统计建模、回归分析等试验需要找合适的数据集#R内置数据集，存储在，通过help(package="datasets")#通过data函数访问这些数据集data()#得到新窗口前面：数据集名字后面：内容#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等#直接输入数据集的名字就可
数据分析-18-时间序列分析的季节性检验皮皮冰燃数据分析数据分析
1什么是时间序列时间序列是一组按时间顺序排列的数据点的集合，通常以固定的时间间隔进行观测。这些数据点可以是按小时、天、月甚至年进行采样的。时间序列在许多领域中都有广泛应用，例如金融、经济学、气象学和工程等。时间序列的分析可以帮助我们理解和预测未来的趋势和模式，以及了解数据的周期性、趋势、季节性等特征。常用的时间序列分析方法包括平滑法、回归分析、ARIMA模型、指数平滑法和机器学习方法等。1.1时间
时间序列分析技巧（二）：ARIMA模型建模步骤总结小墨&晓末时间序列分析算法机器学习人工智能程序人生
CSDN小墨&晓末:https://blog.csdn.net/jd1813346972 个人介绍:研一｜统计学｜干货分享擅长Python、Matlab、R等主流编程软件累计十余项国家级比赛奖项，参与研究经费10w、40w级横向文章目录1目的2ARIMA模型建模流程图解3ARIMA模型建模实操1目的该篇为针对时间序列ARIMA模型建模系列技巧：ARIMA模型
网络安全最新SARIMA季节项时间序列分析流程+python代码 2401_84301389 程序员 python 人工智能机器学习
文章目录数据流程流程分割1画图2季节项和周期项的去除3平稳性检验4白噪声检验5模型拟合6模型定阶AIC/BIC准则7检查残差是否通过检验7.1若通过检验7.2若未通过检验8模型的预测9模型的评价画图均方差等总的代码参考数据数据网站：NationalAeronauticsandSpaceAdministrationGoddardInstituteforSpaceStudies主要分析的是北美陆地表面
Python强化学习，基于gym的马尔可夫决策过程MDP，动态规划求解，体现序贯决策 baozouxiaoxian python gym qlearning python 强化学习 mdp 动态规划求解马尔科夫决策过程
决策的过程分为单阶段和多阶段的。单阶段决策也就是单次决策，这个很简单。而序贯决策指按时间序列的发生，按顺序连续不断地作出决策，即多阶段决策，决策是分前后顺序的。序贯决策是前一阶段决策方案的选择，会影响到后一阶段决策方案的选择，后一阶段决策方案的选择是取决于前一阶段决策方案的结果。强化学习过程中最典型的例子就是非线性二级摆系统，有4个关键值，小车受力，受力方向，摆速度，摆角，每个状态下都需要决策车的
【论文阅读】Mamba:选择状态空间模型的线性时间序列建模（二） syugyou Mamba状态空间模型论文阅读
文章目录3.4一个简化的SSM结构3.5选择机制的性质3.5.1和门控机制的联系3.5.2选择机制的解释3.6额外的模型细节A讨论：选择机制C选择SSM的机制Mamba论文第一部分Mamba:选择状态空间模型的线性时间序列建模(一)3.4一个简化的SSM结构如同结构SSM，选择SSM是单独序列变换可以灵活地整合进神经网络。H3结构式最知名SSM结构地基础，其通常包括受线性注意力启发的和MLP交替地
时空地理加权回归_成果案例 | 中国交通碳排放及影响因素时空异质性 weixin_39930557 时空地理加权回归
中国地域辽阔，不同省域经济发展、资源禀赋、交通基础设施存在显著差异，导致交通碳排放水平差异很大。然而，以往关于交通碳排放规律的研究多是基于时间序列的全局分析，忽略了研究单元之间的相互作用及空间异质性。因此，本研究选取30个省级行政区作为空间单元，利用自上而下法计算省域交通碳排放量，采用探索性空间数据分析方法对2000年至2015年交通碳排放时空分布格局进行研究。同时考虑空间单元的差异性，构建地理加
机器学习-神经网络：循环神经网络（RNN）详解刷刷刷粉刷匠机器学习机器学习神经网络 rnn
引言在当今人工智能（AI）和深度学习（DL）领域，循环神经网络（RNN）作为一种专门处理序列数据的模型，具有不可忽视的重要性。RNN的设计目标是模拟和处理序列中的时间依赖关系，使其成为许多应用场景的理想选择，如自然语言处理（NLP）、时间序列预测和语音识别等。它不仅能处理固定长度的数据输入，还能应对输入长度不一的序列，从而为各种复杂的时序数据任务提供了强有力的支持。1.RNN的起源与发展循环神经网
基于Prometheus和Grafana的现代服务器监控体系构建不会代码的小林服务器
在当今的IT基础设施中，监控是确保系统性能和稳定性的关键组成部分。Prometheus和Grafana是两个广受欢迎的开源工具，它们可以共同构建一个功能全面、可视化强的监控系统。Prometheus是一个开源的监控系统和时间序列数据库，适用于记录实时的度量指标。它不仅提供了多维数据模型和强大的PromQL查询语言，还支持服务发现和HTTP拉取模型。这些特性使得Prometheus特别适合在微服务和
2024年MathorCup高校数学建模挑战赛（C题）深度剖析_建模完整过程+详细思路+代码全解析 Unicorn建模数学建模 python 算法
问题1本问题属于时间序列预测问题，其目标是对未来一段时期内的信息进行预测。因此可以采用基于时间序列的回归模型进行货量预测。具体而言，将首先分析时间序列的性质，然后构建回归模型，最后利用模型对未来30天每天及每小时的货量进行预测。【算法原理】（1）时间序列的性质时间序列实际上是一种随时间变化的连续数据，其特点主要体现在两个方面：趋势性和周期性。趋势性是指时间序列数据在长期内呈现出的增长或减小的趋势，
数据分析-13-时间序列异常值检测的类型及常见的检测方法皮皮冰燃数据分析数据分析
参考时间序列异常值的分类及检测参考异常值数据预警分析1时间序列异常的类型时间序列异常检测是数据处理和分析的重要环节，广泛应用于量化交易、网络安全检测、自动驾驶汽车和大型工业设备日常维护等领域。在时间序列数据中，异常通常指的是与正常数据模式显著不同的数据点，可能由系统故障、错误或外部干扰引起。异常数据，也称为离群点，是指在数据集中与其他数据点明显不同的样本。这些数据点往往不符合预期的模式或行为，可能
2024 数学建模国赛 C 题模型及算法（无废话版）不染53 数学建模数学建模算法 python
目录写在开始需要掌握的数学模型/算法评价体系/评价类问题时间序列处理数据降维聚类问题（无监督）分类问题（有监督）集成学习（Bagging/Boosting）回归问题关联分析统计学方法/统计模型智能优化算法需要掌握的Python专业库需要掌握的软件/工具写在开始本人获2023年数学建模国赛C题国家级一等奖，备赛期间专攻C题。本文总结了在备赛期间总结的模型和算法，足以应对90%国赛C题中涉及到的问题。
探索未来：LLMTime——大型语言模型的零样本时间序列预测器褚知茉Jade
探索未来：LLMTime——大型语言模型的零样本时间序列预测器在这个数字化的时代，时间和数据是推动世界前进的关键因素。LLMTime是一个创新性的开源项目，它揭示了大型语言模型（LLMs）在时间序列预测中的惊人潜力。无需针对特定任务进行训练，仅通过将数值转化为文本并采样可能的扩展，LLMTime就能超越传统的时间序列方法。项目介绍LLMTime提出了一种名为"零样本时间序列预测"的方法，其核心在于
Time-LLM 开源项目使用教程袁菲李
Time-LLM开源项目使用教程Time-LLM[ICLR2024]Officialimplementationof"Time-LLM:TimeSeriesForecastingbyReprogrammingLargeLanguageModels"项目地址:https://gitcode.com/gh_mirrors/ti/Time-LLM项目介绍Time-LLM是一个用于时间序列预测的框架，通过
Python数据分析详解（适合新手的详细教程）码农必胜客 Python零基础入门 python 数据分析开发语言
前言这篇文章主要介绍了Python中的数据分析详解,对数据进行分析。数据分析是指根据分析目的，用适当的统计分析方法及工具，对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用。目录数据分析概述python在数据分析方面有哪些优势数据的导入和导出导入数据导出数据数据预处理数据的选择和运算数据分类汇总和统计时间序列数据可视化数据分析概述python在数据分析方面有哪些优势Python不受数据
基于Prometheus和Grafana的现代服务器监控体系构建小绵羊不怕大灰狼 prometheus grafana
1.安装PrometheusPrometheus是一个开源的监控系统和时间序列数据库，适用于记录实时的度量指标。•下载并安装Prometheus：•前往Prometheus官方网站下载适用于您操作系统的版本。•解压并配置prometheus.yml文件，定义抓取目标（targets），如服务器、应用程序等。•配置Prometheus：•编辑prometheus.yml文件，添加您要监控的服务器地址
Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting———PRELIMINARIES six.学长 Mambaformer transformer 深度学习人工智能
ProblemStatement在长短期时间序列预测问题中，给定历史时间序列样本的回溯窗口L=(x1,x2,..,xL)L=(x_1,x_2,..,x_L)L=(x1,x2,..,xL)，长度为LLL，其中每个时间步ttt的样本xt∈RMx_t\in\mathbb{R}^Mxt∈RM，包含MMM个变量，我们的目标是预测未来的FFF个值，即F=(xL+1,xL+2,..,xL+F)F=(x_{L+1
Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting————4 METHODOLOG six.学长 Mambaformer transformer 深度学习人工智能
4METHODOLOGY图解Mambaformer模型结合了Mamba和Transformer的元素，旨在进行时间序列预测。以下是Mambaformer模型的各个组成部分和流程的详细说明：嵌入层（EmbeddingLayer）TokenEncoding（令牌编码）：这个部分将输入数据编码成向量表示，以捕捉输入特征的语义含义或特征。TemporalEncoding（时间编码）：这部分加入时间信息，例
推荐开源项目：Fluxter - Elixir连接InfluxDB的高效桥梁江奎钰
推荐开源项目：Fluxter-Elixir连接InfluxDB的高效桥梁fluxterHigh-performanceandreliableInfluxDBwriterforElixir项目地址:https://gitcode.com/gh_mirrors/fl/fluxter项目介绍Fluxter是一款专为Elixir社区打造的轻量级工具，旨在简化与InfluxDB——高性能的时间序列数据库之间
【Python】Pandas：数据分析 T0uken 数据分析 python pandas
Pandas是Python中功能强大的数据分析工具，用于处理和分析结构化数据。本文将通过分步骤的方式，详细介绍如何使用Pandas进行数据分组、重塑、透视表、时间序列处理、类别型数据管理以及数据可视化。这些知识点将帮助初学者快速上手并掌握Pandas的核心功能。数据分组（Grouping）数据分组是数据分析中的常见操作，Pandas的groupby()方法允许我们按列对数据进行分组，然后对每个组执
InfluxDB和OpenTSDB两种时序数据库应用场景 CodeMaster_37714848 opentsdb 时序数据库数据库
InfluxDB概述：InfluxDB是一个开源的高性能时序数据库，专门用于处理大量的时间序列数据。它由InfluxData开发，支持高写入吞吐量和灵活的查询。特点：高性能写入和查询：设计上注重高写入速度和低延迟查询。SQL-like查询语言：使用类似SQL的InfluxQL或Flux查询语言，简化了复杂查询的编写。数据压缩：提供高效的数据压缩机制，减少存储需求。集成和工具：支持与Grafana等
数学建模强化宝典（11）时间预测模型 IT 青年建模强化栈数学建模数据预测模型编程
前言时间预测模型，即时间序列预测模型，是一类专门用于分析和预测时间序列数据的模型。时间序列数据是指将某一变量在不同时间点的观测值按时间先后顺序排列而成的序列。这类模型在金融、经济、气象、工业控制等多个领域都有广泛的应用。以下是一些常见的时间序列预测模型：1.朴素法（NaiveMethod）原理：预测值等于实际观察到的最后一个值。它假设数据是平稳且没有趋势性与季节性的。适用场景：数据变化不大或仅作为
Prometheus与Grafana入门：从安装到基础监控的完整指南勤劳兔码农 prometheus grafana
Prometheus与Grafana入门：从安装到基础监控的完整指南Prometheus和Grafana是现代监控系统的黄金组合。Prometheus作为一个开源的监控系统和时间序列数据库，以其强大的指标收集和查询能力广泛应用于云原生环境。而Grafana则是一个用于数据可视化和监控的开源平台，能够将Prometheus收集的数据以图表的形式展现出来，帮助用户更直观地理解系统的运行状态。本指南将从
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本