RealEmperor

Python数据分析_第12课：时间序列分析_笔记

文章目录

时间基本处理
字符串转日期
pands中的时间序列
日期范围、频率与移动
时间序列可视化
时间序列案例分析

参数初始化
时序图
自相关图
平稳性检测
差分后的结果
时序图
自相关图
偏自相关图
平稳性检测
白噪声检验
建立ARIMA模型（差分整合移动平均自回归模型）
给出模型报告
预测

GitHub: https://github.com/RealEmperor/Python-for-Data-Analysis

时间基本处理

import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt

%matplotlib inline

pd.options.display.max_rows = 12
np.set_printoptions(precision=4, suppress=True)

plt.rc('figure', figsize=(12, 4))

from datetime import datetime

now = datetime.now()
now

datetime.datetime(2019, 8, 19, 10, 30, 15, 980592)

now.year, now.month, now.day

(2019, 8, 19)

delta = datetime(2019, 1, 1) - datetime(2008, 1, 1, 23, 59)
delta

datetime.timedelta(4017, 60)

delta.days

delta.seconds

from datetime import timedelta

start = datetime(2019, 1, 1)
start + timedelta(12)

datetime.datetime(2019, 1, 13, 0, 0)

start - 2 * timedelta(12)

datetime.datetime(2018, 12, 8, 0, 0)

字符串转日期

# 字符串转日期
stamp = datetime(2019, 1, 31)
str(stamp)
stamp.strftime('%Y-%m-%d')

'2019-01-31'

value = '2019-01-31'
datetime.strptime(value, '%Y-%m-%d')

datetime.datetime(2019, 1, 31, 0, 0)

datestrs = ['8/1/2019', '9/1/2019']
[datetime.strptime(x, '%m/%d/%Y') for x in datestrs]

[datetime.datetime(2019, 8, 1, 0, 0), datetime.datetime(2019, 9, 1, 0, 0)]

from dateutil.parser import parse

parse('2019-01-31')

datetime.datetime(2019, 1, 31, 0, 0)

parse('Jan 31, 2019 11:15 PM')

datetime.datetime(2019, 1, 31, 23, 15)

parse('12/31/2019', dayfirst=True)

datetime.datetime(2019, 12, 31, 0, 0)

print(datestrs)
pd.to_datetime(datestrs)

['8/1/2019', '9/1/2019']





DatetimeIndex(['2019-08-01', '2019-09-01'], dtype='datetime64[ns]', freq=None)

idx = pd.to_datetime(datestrs + [None])
idx

DatetimeIndex(['2019-08-01', '2019-09-01', 'NaT'], dtype='datetime64[ns]', freq=None)

idx[2]

NaT

pd.isnull(idx)

array([False, False,  True], dtype=bool)

pands中的时间序列

from datetime import datetime

dates = [datetime(2019, 1, 2), datetime(2019, 1, 5), datetime(2019, 1, 7),
         datetime(2019, 1, 8), datetime(2019, 1, 10), datetime(2019, 1, 12)]
ts = Series(np.random.randn(6), index=dates)
ts

2019-01-02    0.172000
2019-01-05   -0.424536
2019-01-07   -0.214663
2019-01-08   -0.645964
2019-01-10    0.231748
2019-01-12   -0.053887
dtype: float64

type(ts)

pandas.core.series.Series

ts.index

DatetimeIndex(['2019-01-02', '2019-01-05', '2019-01-07', '2019-01-08',
               '2019-01-10', '2019-01-12'],
              dtype='datetime64[ns]', freq=None)

ts + ts[::2]

2019-01-02    0.344000
2019-01-05         NaN
2019-01-07   -0.429325
2019-01-08         NaN
2019-01-10    0.463496
2019-01-12         NaN
dtype: float64

ts.index.dtype

dtype('

 
  stamp = ts.index[0]
stamp
 
  Timestamp('2019-01-02 00:00:00')
 
  # 索引、选取与子集构造
stamp = ts.index[2]
ts[stamp]
 
  -0.21466270986855687
 
  # 月/日/年
ts['1/10/2019']
 
  0.23174790203572407
 
  # 年月日
ts['20190110']
 
  0.23174790203572407
 
  longer_ts = Series(np.random.randn(1000),
                   index=pd.date_range('1/1/2000', periods=1000))
longer_ts
 
  2000-01-01   -0.467172
2000-01-02    0.330990
2000-01-03    0.086903
2000-01-04    0.387555
2000-01-05    0.023073
2000-01-06    0.021846
                ...   
2002-09-21   -0.617661
2002-09-22   -0.284098
2002-09-23   -0.455775
2002-09-24   -1.401280
2002-09-25    0.372429
2002-09-26    1.501288
Freq: D, Length: 1000, dtype: float64
 
  longer_ts['2001']
 
  2001-01-01   -0.751282
2001-01-02    0.099974
2001-01-03   -1.698063
2001-01-04    0.408136
2001-01-05    0.827402
2001-01-06    0.410633
                ...   
2001-12-26    0.285561
2001-12-27   -0.554660
2001-12-28    0.484308
2001-12-29   -0.673601
2001-12-30   -0.797842
2001-12-31    0.988648
Freq: D, Length: 365, dtype: float64
 
  longer_ts['2001-05']
 
  2001-05-01   -0.801544
2001-05-02    0.642389
2001-05-03    0.164474
2001-05-04   -1.068225
2001-05-05    0.651158
2001-05-06    0.920398
                ...   
2001-05-26   -0.284613
2001-05-27   -0.176875
2001-05-28    0.318221
2001-05-29   -1.167438
2001-05-30    0.560262
2001-05-31   -0.250117
Freq: D, Length: 31, dtype: float64
 
  ts
 
  2019-01-02    0.172000
2019-01-05   -0.424536
2019-01-07   -0.214663
2019-01-08   -0.645964
2019-01-10    0.231748
2019-01-12   -0.053887
dtype: float64
 
  ts[datetime(2019, 1, 7):]
 
  2019-01-07   -0.214663
2019-01-08   -0.645964
2019-01-10    0.231748
2019-01-12   -0.053887
dtype: float64
 
  # 截断 1/9/2019之后的数据
ts.truncate(after='1/9/2019')
 
  2019-01-02    0.172000
2019-01-05   -0.424536
2019-01-07   -0.214663
2019-01-08   -0.645964
dtype: float64
 
  # freq='W-WED' 是每周周三
dates = pd.date_range('1/1/2000', periods=100, freq='W-WED')
dates
 
  DatetimeIndex(['2000-01-05', '2000-01-12', '2000-01-19', '2000-01-26',
               '2000-02-02', '2000-02-09', '2000-02-16', '2000-02-23',
               '2000-03-01', '2000-03-08', '2000-03-15', '2000-03-22',
               '2000-03-29', '2000-04-05', '2000-04-12', '2000-04-19',
               '2000-04-26', '2000-05-03', '2000-05-10', '2000-05-17',
               '2000-05-24', '2000-05-31', '2000-06-07', '2000-06-14',
               '2000-06-21', '2000-06-28', '2000-07-05', '2000-07-12',
               '2000-07-19', '2000-07-26', '2000-08-02', '2000-08-09',
               '2000-08-16', '2000-08-23', '2000-08-30', '2000-09-06',
               '2000-09-13', '2000-09-20', '2000-09-27', '2000-10-04',
               '2000-10-11', '2000-10-18', '2000-10-25', '2000-11-01',
               '2000-11-08', '2000-11-15', '2000-11-22', '2000-11-29',
               '2000-12-06', '2000-12-13', '2000-12-20', '2000-12-27',
               '2001-01-03', '2001-01-10', '2001-01-17', '2001-01-24',
               '2001-01-31', '2001-02-07', '2001-02-14', '2001-02-21',
               '2001-02-28', '2001-03-07', '2001-03-14', '2001-03-21',
               '2001-03-28', '2001-04-04', '2001-04-11', '2001-04-18',
               '2001-04-25', '2001-05-02', '2001-05-09', '2001-05-16',
               '2001-05-23', '2001-05-30', '2001-06-06', '2001-06-13',
               '2001-06-20', '2001-06-27', '2001-07-04', '2001-07-11',
               '2001-07-18', '2001-07-25', '2001-08-01', '2001-08-08',
               '2001-08-15', '2001-08-22', '2001-08-29', '2001-09-05',
               '2001-09-12', '2001-09-19', '2001-09-26', '2001-10-03',
               '2001-10-10', '2001-10-17', '2001-10-24', '2001-10-31',
               '2001-11-07', '2001-11-14', '2001-11-21', '2001-11-28'],
              dtype='datetime64[ns]', freq='W-WED')
 
  data_range函数频率参数值 
   
    
     
     别名 
     描述 
     
    
    
     
     B 
     交易日 
     
     
     C 
     自定义交易日（试验性） 
     
     
     D 
     日历日 
     
     
     W 
     每周 
     
     
     M 
     每月底 
     
     
     BM 
     每月最后一个交易日 
     
     
     MS 
     月初 
     
     
     BMS 
     每月第一个交易日 
     
     
     Q 
     季度末 
     
     
     BQ 
     每季度最后一个交易日 
     
     
     QS 
     季度初 
     
     
     BQS 
     每季度第一个交易日 
     
     
     A 
     每年底 
     
     
     BA 
     每年最后一个交易日 
     
     
     AS 
     每年初 
     
     
     BAS 
     每年第一个交易日 
     
     
     H 
     每小时 
     
     
     T 
     每分钟 
     
     
     S 
     每秒 
     
     
     L 
     毫秒 
     
     
     U 
     微秒 
     
    
   
  long_df = DataFrame(np.random.randn(100, 4),
                    index=dates,
                    columns=['Colorado', 'Texas', 'New York', 'Ohio'])
long_df
 
   
   
   
    
     
      
     Colorado 
     Texas 
     New York 
     Ohio 
     
    
    
     
     2000-01-05 
     0.782948 
     -0.890164 
     -0.028164 
     -0.493703 
     
     
     2000-01-12 
     -0.944077 
     0.896286 
     0.052383 
     -1.649585 
     
     
     2000-01-19 
     -3.143461 
     0.583063 
     1.952593 
     -1.034577 
     
     
     2000-01-26 
     1.002276 
     -0.390626 
     -1.275372 
     -1.293879 
     
     
     2000-02-02 
     -1.765939 
     -0.326712 
     0.209869 
     -1.566046 
     
     
     2000-02-09 
     -0.556474 
     0.854375 
     -2.278699 
     1.159897 
     
     
     ... 
     ... 
     ... 
     ... 
     ... 
     
     
     2001-10-24 
     0.133905 
     -0.556946 
     -0.415174 
     -0.075620 
     
     
     2001-10-31 
     1.481011 
     0.176015 
     1.103585 
     0.221638 
     
     
     2001-11-07 
     -2.754221 
     0.000293 
     0.428568 
     -0.880257 
     
     
     2001-11-14 
     1.220620 
     -1.480246 
     2.478029 
     0.578780 
     
     
     2001-11-21 
     -1.274210 
     0.495101 
     -0.061771 
     -2.701273 
     
     
     2001-11-28 
     -0.245816 
     -0.784797 
     0.562159 
     0.103696 
     
    
   
  100 rows × 4 columns 
  long_df.loc['5-2001']
 
   
   
   
    
     
      
     Colorado 
     Texas 
     New York 
     Ohio 
     
    
    
     
     2001-05-02 
     -0.670840 
     1.181421 
     -2.120271 
     1.729987 
     
     
     2001-05-09 
     -0.366307 
     0.215251 
     -0.720757 
     -0.473165 
     
     
     2001-05-16 
     0.676114 
     -0.008594 
     2.091617 
     -0.759926 
     
     
     2001-05-23 
     0.275334 
     0.030045 
     -0.267771 
     0.056039 
     
     
     2001-05-30 
     -0.171642 
     -1.135467 
     -0.534345 
     2.050312 
     
    
   
  dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000', '1/2/2000',
                          '1/3/2000'])
dup_ts = Series(np.arange(5), index=dates)
dup_ts
 
  2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int32
 
  dup_ts.index.is_unique
 
  False
 
  dup_ts['1/3/2000']
 
  4
 
  dup_ts['1/2/2000']
 
  2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int32
 
  grouped = dup_ts.groupby(level=0)
grouped.mean()
 
  2000-01-01    0
2000-01-02    2
2000-01-03    4
dtype: int32
 
  grouped.count()
 
  2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64
 
  日期范围、频率与移动 
  ts
 
  2019-01-02    0.172000
2019-01-05   -0.424536
2019-01-07   -0.214663
2019-01-08   -0.645964
2019-01-10    0.231748
2019-01-12   -0.053887
dtype: float64
 
  ts.resample('D').mean()
 
  2019-01-02    0.172000
2019-01-03         NaN
2019-01-04         NaN
2019-01-05   -0.424536
2019-01-06         NaN
2019-01-07   -0.214663
2019-01-08   -0.645964
2019-01-09         NaN
2019-01-10    0.231748
2019-01-11         NaN
2019-01-12   -0.053887
Freq: D, dtype: float64
 
  index = pd.date_range('4/1/2012', '6/1/2012')
index
 
  DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20',
               '2012-04-21', '2012-04-22', '2012-04-23', '2012-04-24',
               '2012-04-25', '2012-04-26', '2012-04-27', '2012-04-28',
               '2012-04-29', '2012-04-30', '2012-05-01', '2012-05-02',
               '2012-05-03', '2012-05-04', '2012-05-05', '2012-05-06',
               '2012-05-07', '2012-05-08', '2012-05-09', '2012-05-10',
               '2012-05-11', '2012-05-12', '2012-05-13', '2012-05-14',
               '2012-05-15', '2012-05-16', '2012-05-17', '2012-05-18',
               '2012-05-19', '2012-05-20', '2012-05-21', '2012-05-22',
               '2012-05-23', '2012-05-24', '2012-05-25', '2012-05-26',
               '2012-05-27', '2012-05-28', '2012-05-29', '2012-05-30',
               '2012-05-31', '2012-06-01'],
              dtype='datetime64[ns]', freq='D')
 
  pd.date_range(start='4/1/2012', periods=20)
 
  DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20'],
              dtype='datetime64[ns]', freq='D')
 
  pd.date_range(end='6/1/2012', periods=20)
 
  DatetimeIndex(['2012-05-13', '2012-05-14', '2012-05-15', '2012-05-16',
               '2012-05-17', '2012-05-18', '2012-05-19', '2012-05-20',
               '2012-05-21', '2012-05-22', '2012-05-23', '2012-05-24',
               '2012-05-25', '2012-05-26', '2012-05-27', '2012-05-28',
               '2012-05-29', '2012-05-30', '2012-05-31', '2012-06-01'],
              dtype='datetime64[ns]', freq='D')
 
  # B(business daily) ,M 月的最后一天
pd.date_range('1/1/2000', '12/1/2000', freq='BM')
 
  DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-28',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-29', '2000-10-31', '2000-11-30'],
              dtype='datetime64[ns]', freq='BM')
 
  pd.date_range('5/2/2012 12:56:31', periods=5)
 
  DatetimeIndex(['2012-05-02 12:56:31', '2012-05-03 12:56:31',
               '2012-05-04 12:56:31', '2012-05-05 12:56:31',
               '2012-05-06 12:56:31'],
              dtype='datetime64[ns]', freq='D')
 
  pd.date_range('5/2/2012 12:56:31', periods=5, normalize=True)
 
  DatetimeIndex(['2012-05-02', '2012-05-03', '2012-05-04', '2012-05-05',
               '2012-05-06'],
              dtype='datetime64[ns]', freq='D')
 
  from pandas.tseries.offsets import Hour, Minute

hour = Hour()
hour
 
  
 
  four_hours = Hour(4)
four_hours
 
  <4 * Hours>
 
  pd.date_range('1/1/2000', '1/3/2000 23:59', freq='4h')
 
  DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 04:00:00',
               '2000-01-01 08:00:00', '2000-01-01 12:00:00',
               '2000-01-01 16:00:00', '2000-01-01 20:00:00',
               '2000-01-02 00:00:00', '2000-01-02 04:00:00',
               '2000-01-02 08:00:00', '2000-01-02 12:00:00',
               '2000-01-02 16:00:00', '2000-01-02 20:00:00',
               '2000-01-03 00:00:00', '2000-01-03 04:00:00',
               '2000-01-03 08:00:00', '2000-01-03 12:00:00',
               '2000-01-03 16:00:00', '2000-01-03 20:00:00'],
              dtype='datetime64[ns]', freq='4H')
 
  Hour(2) + Minute(30)
 
  <150 * Minutes>
 
  pd.date_range('1/1/2000', periods=10, freq='1h30min')
 
  DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 01:30:00',
               '2000-01-01 03:00:00', '2000-01-01 04:30:00',
               '2000-01-01 06:00:00', '2000-01-01 07:30:00',
               '2000-01-01 09:00:00', '2000-01-01 10:30:00',
               '2000-01-01 12:00:00', '2000-01-01 13:30:00'],
              dtype='datetime64[ns]', freq='90T')
 
  # freq='WOM-3FRI' 每个月第三个周五
rng = pd.date_range('1/1/2012', '9/1/2012', freq='WOM-3FRI')
list(rng)
 
  [Timestamp('2012-01-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-02-17 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-03-16 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-04-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-05-18 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-06-15 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-07-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-08-17 00:00:00', freq='WOM-3FRI')]
 
  ts = Series(np.random.randn(4),
            index=pd.date_range('1/1/2000', periods=4, freq='M'))
ts
 
  2000-01-31    0.598434
2000-02-29    0.105109
2000-03-31   -0.271298
2000-04-30    0.060423
Freq: M, dtype: float64
 
  # 时间不变 ，数据向下错位
ts.shift(2)
 
  2000-01-31         NaN
2000-02-29         NaN
2000-03-31    0.598434
2000-04-30    0.105109
Freq: M, dtype: float64
 
  ts.shift(-2)
 
  2000-01-31   -0.271298
2000-02-29    0.060423
2000-03-31         NaN
2000-04-30         NaN
Freq: M, dtype: float64
 
  # 求增长率
ts / ts.shift(1) - 1
 
  2000-01-31         NaN
2000-02-29   -0.824359
2000-03-31   -3.581107
2000-04-30   -1.222718
Freq: M, dtype: float64
 
  # 数据不变，时间大小变化
ts.shift(2, freq='M')
 
  2000-03-31    0.598434
2000-04-30    0.105109
2000-05-31   -0.271298
2000-06-30    0.060423
Freq: M, dtype: float64
 
  # 下移3天
ts.shift(3, freq='D')
 
  2000-02-03    0.598434
2000-03-03    0.105109
2000-04-03   -0.271298
2000-05-03    0.060423
dtype: float64
 
  # 下移3天
ts.shift(1, freq='3D')
 
  2000-02-03    0.598434
2000-03-03    0.105109
2000-04-03   -0.271298
2000-05-03    0.060423
dtype: float64
 
  # 下移90分钟
ts.shift(1, freq='90T')
 
  2000-01-31 01:30:00    0.598434
2000-02-29 01:30:00    0.105109
2000-03-31 01:30:00   -0.271298
2000-04-30 01:30:00    0.060423
Freq: M, dtype: float64
 
  from pandas.tseries.offsets import Day, MonthEnd

now = datetime(2019, 8, 18)
now + 3 * Day()
 
  Timestamp('2019-08-21 00:00:00')
 
  now + MonthEnd()
 
  Timestamp('2019-08-31 00:00:00')
 
  now + MonthEnd(2)
 
  Timestamp('2019-09-30 00:00:00')
 
  offset = MonthEnd()
offset.rollforward(now)
 
  Timestamp('2019-08-31 00:00:00')
 
  offset.rollback(now)
 
  Timestamp('2019-07-31 00:00:00')
 
  ts = Series(np.random.randn(20),
            index=pd.date_range('1/15/2000', periods=20, freq='4d'))
ts
 
  2000-01-15   -0.832137
2000-01-19   -1.423202
2000-01-23   -1.543921
2000-01-27   -0.045328
2000-01-31   -0.073373
2000-02-04    0.824774
                ...   
2000-03-11   -1.036641
2000-03-15    1.660434
2000-03-19    0.080479
2000-03-23    0.269037
2000-03-27    0.842363
2000-03-31   -1.380433
Freq: 4D, Length: 20, dtype: float64
 
  ts.groupby(offset.rollforward).mean()
 
  2000-01-31   -0.783592
2000-02-29    0.365774
2000-03-31   -0.038601
dtype: float64
 
  ts.resample('M').mean()
 
  2000-01-31   -0.783592
2000-02-29    0.365774
2000-03-31   -0.038601
Freq: M, dtype: float64
 
  时间序列可视化 
  close_px_all = pd.read_csv('data/stock_px.csv', parse_dates=True, index_col=0)
close_px_all.head()
 
   
   
   
    
     
      
     AAPL 
     MSFT 
     XOM 
     SPX 
     
    
    
     
     2003-01-02 
     7.40 
     21.11 
     29.22 
     909.03 
     
     
     2003-01-03 
     7.45 
     21.14 
     29.24 
     908.59 
     
     
     2003-01-06 
     7.45 
     21.52 
     29.96 
     929.01 
     
     
     2003-01-07 
     7.43 
     21.93 
     28.95 
     922.93 
     
     
     2003-01-08 
     7.28 
     21.31 
     28.83 
     909.93 
     
    
   
  close_px = close_px_all[['AAPL', 'MSFT', 'XOM']]
close_px.head()
 
   
   
   
    
     
      
     AAPL 
     MSFT 
     XOM 
     
    
    
     
     2003-01-02 
     7.40 
     21.11 
     29.22 
     
     
     2003-01-03 
     7.45 
     21.14 
     29.24 
     
     
     2003-01-06 
     7.45 
     21.52 
     29.96 
     
     
     2003-01-07 
     7.43 
     21.93 
     28.95 
     
     
     2003-01-08 
     7.28 
     21.31 
     28.83 
     
    
   
  close_px = close_px.resample('B').ffill()
close_px.info()
 
  
DatetimeIndex: 2292 entries, 2003-01-02 to 2011-10-14
Freq: B
Data columns (total 3 columns):
AAPL    2292 non-null float64
MSFT    2292 non-null float64
XOM     2292 non-null float64
dtypes: float64(3)
memory usage: 71.6 KB
 
  close_px['AAPL'].plot()
 
  
 
   
  close_px.loc['2009'].plot()
 
  
 
   
  close_px['AAPL'].loc['01-2011':'03-2011'].plot()
 
  
 
   
  appl_q = close_px['AAPL'].resample('Q-DEC').ffill()
appl_q.loc['2009':].plot()
 
  
 
   
  close_px = close_px.asfreq('B').fillna(method='ffill').ffill()
close_px.AAPL.plot()
 
  
 
   
  close_px.AAPL.rolling(250).mean().plot()
 
  
 
   
  appl_std250 = close_px.AAPL.rolling(250, min_periods=10).std()
appl_std250[5:12]
 
  2003-01-09         NaN
2003-01-10         NaN
2003-01-13         NaN
2003-01-14         NaN
2003-01-15    0.077496
2003-01-16    0.074760
2003-01-17    0.112368
Freq: B, Name: AAPL, dtype: float64
 
  appl_std250.plot()
 
  
 
   
  close_px.rolling(60).mean().plot(logy=True)
 
  
 
   
  fig, axes = plt.subplots(nrows=2, ncols=1, sharex=True, sharey=True,
                         figsize=(12, 7))

aapl_px = close_px.AAPL['2005':'2009']

ma60 = aapl_px.rolling(60, min_periods=50).mean()
ewma60 = aapl_px.ewm(span=60).mean()

aapl_px.plot(style='k-', ax=axes[0])
ma60.plot(style='k--', ax=axes[0])
aapl_px.plot(style='k-', ax=axes[1])
ewma60.plot(style='k--', ax=axes[1])
axes[0].set_title('Simple MA')
axes[1].set_title('Exponentially-weighted MA')
 
  
 
   
  close_px.head()
 
   
   
   
    
     
      
     AAPL 
     MSFT 
     XOM 
     
    
    
     
     2003-01-02 
     7.40 
     21.11 
     29.22 
     
     
     2003-01-03 
     7.45 
     21.14 
     29.24 
     
     
     2003-01-06 
     7.45 
     21.52 
     29.96 
     
     
     2003-01-07 
     7.43 
     21.93 
     28.95 
     
     
     2003-01-08 
     7.28 
     21.31 
     28.83 
     
    
   
  # 标普500指数
spx_px = close_px_all['SPX']
spx_px.head()
 
  2003-01-02    909.03
2003-01-03    908.59
2003-01-06    929.01
2003-01-07    922.93
2003-01-08    909.93
Name: SPX, dtype: float64
 
  spx_rets = spx_px / spx_px.shift(1) - 1
returns = close_px.pct_change()
# 苹果股票和标普500指数的相关系数
corr = returns.AAPL.rolling(125, min_periods=100).corr(spx_rets)
corr.plot()
 
  
 
   
  corr = returns.rolling(125, min_periods=100).corr(spx_rets)
corr.plot()
 
  
 
   
  from scipy.stats import percentileofscore

score_at_2percent = lambda x: percentileofscore(x, 0.02)
result = returns.AAPL.rolling(250).apply(score_at_2percent)
result.plot()
 
  
 
   
  时间序列案例分析 
  参数初始化 
  discfile = 'data/arima_data.xls'
forecastnum = 5

# 读取数据，指定日期列为指标，Pandas自动将“日期”列识别为Datetime格式
data = pd.read_excel(discfile, index_col=u'日期')
data = pd.DataFrame(data, dtype=np.float64)
data
 
   
   
   
    
     
      
     销量 
     
     
     日期 
      
     
    
    
     
     2015-01-01 
     3023.0 
     
     
     2015-01-02 
     3039.0 
     
     
     2015-01-03 
     3056.0 
     
     
     2015-01-04 
     3138.0 
     
     
     2015-01-05 
     3188.0 
     
     
     2015-01-06 
     3224.0 
     
     
     ... 
     ... 
     
     
     2015-02-01 
     4210.0 
     
     
     2015-02-02 
     4493.0 
     
     
     2015-02-03 
     4560.0 
     
     
     2015-02-04 
     4637.0 
     
     
     2015-02-05 
     4755.0 
     
     
     2015-02-06 
     4817.0 
     
    
   
  37 rows × 1 columns 
  时序图 
  # 时序图
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
data.plot()
 
  
 
   
  自相关图 
  # 自相关图
from statsmodels.graphics.tsaplots import plot_acf

plot_acf(data).show()
 
  C:\ProgramData\Anaconda3\lib\site-packages\statsmodels\compat\pandas.py:56: FutureWarning: The pandas.core.datetools module is deprecated and will be removed in a future version. Please use the pandas.tseries module instead.
  from pandas.core import datetools
C:\ProgramData\Anaconda3\lib\site-packages\matplotlib\figure.py:403: UserWarning: matplotlib is currently using a non-GUI backend, so cannot show the figure
  "matplotlib is currently using a non-GUI backend, "
 
   
  平稳性检测 
  # 平稳性检测
from statsmodels.tsa.stattools import adfuller as ADF

ADF(data[u'销量'])
# 返回值依次为adf、pvalue、usedlag、nobs、critical values、icbest、regresults、resstore

 
  (1.8137710150945274,
 0.99837594215142644,
 10,
 26,
 {'1%': -3.7112123008648155,
  '10%': -2.6300945562130176,
  '5%': -2.9812468047337282},
 299.46989866024177)
 
  pvalue=0.99837594215142644，足够大，不能拒绝原假设（数据非平稳），所以数据是非平稳的。 
  下面尝试做一下差分： 
  差分后的结果 
  # 差分后的结果
D_data = data.diff().dropna()
D_data.columns = [u'销量差分']
D_data
 
   
   
   
    
     
      
     销量差分 
     
     
     日期 
      
     
    
    
     
     2015-01-02 
     16.0 
     
     
     2015-01-03 
     17.0 
     
     
     2015-01-04 
     82.0 
     
     
     2015-01-05 
     50.0 
     
     
     2015-01-06 
     36.0 
     
     
     2015-01-07 
     2.0 
     
     
     ... 
     ... 
     
     
     2015-02-01 
     171.0 
     
     
     2015-02-02 
     283.0 
     
     
     2015-02-03 
     67.0 
     
     
     2015-02-04 
     77.0 
     
     
     2015-02-05 
     118.0 
     
     
     2015-02-06 
     62.0 
     
    
   
  36 rows × 1 columns 
  时序图 
  D_data.plot()  # 时序图
 
  
 
   
  自相关图 
  plot_acf(D_data).show()  # 自相关图
 
  C:\ProgramData\Anaconda3\lib\site-packages\matplotlib\figure.py:403: UserWarning: matplotlib is currently using a non-GUI backend, so cannot show the figure
  "matplotlib is currently using a non-GUI backend, "
 
   
  偏自相关图 
  from statsmodels.graphics.tsaplots import plot_pacf

plot_pacf(D_data).show()  # 偏自相关图
 
  C:\ProgramData\Anaconda3\lib\site-packages\matplotlib\figure.py:403: UserWarning: matplotlib is currently using a non-GUI backend, so cannot show the figure
  "matplotlib is currently using a non-GUI backend, "
 
   
  平稳性检测 
  ADF(D_data[u'销量差分'])  # 平稳性检测
 
  (-3.1560562366723537,
 0.022673435440048798,
 0,
 35,
 {'1%': -3.6327426647230316,
  '10%': -2.6130173469387756,
  '5%': -2.9485102040816327},
 287.59090907803341)
 
  pvalue=0.022673435440048798，足够小，能拒绝原假设（数据非平稳），可以认为数据是平稳的。继续向下检验： 
  白噪声检验 
  # 白噪声检验
from statsmodels.stats.diagnostic import acorr_ljungbox

acorr_ljungbox(D_data, lags=1)  # 返回统计量和p值
 
  (array([ 11.304]), array([ 0.0008]))
 
  pvalue=0.0008，足够小，可以认为数据不是白噪声，继续： 
  建立ARIMA模型（差分整合移动平均自回归模型） 
  from statsmodels.tsa.arima_model import ARIMA

# 定阶
pmax = int(len(D_data) / 10)  # 一般阶数不超过length/10
qmax = int(len(D_data) / 10)  # 一般阶数不超过length/10
bic_matrix = []  # bic矩阵
for p in range(pmax + 1):
    tmp = []
    for q in range(qmax + 1):
        try:  # 存在部分报错，所以用try来跳过报错。
            tmp.append(ARIMA(data, (p, 1, q)).fit().bic)
        except:
            tmp.append(None)
    bic_matrix.append(tmp)
 
  bic_matrix = pd.DataFrame(bic_matrix)  # 从中可以找出最小值
bic_matrix
 
   
   
   
    
     
      
     0 
     1 
     2 
     3 
     
    
    
     
     0 
     432.068472 
     422.510082 
     426.088911 
     426.595507 
     
     
     1 
     423.628276 
     426.073601 
     NaN 
     NaN 
     
     
     2 
     426.774824 
     427.395821 
     NaN 
     NaN 
     
     
     3 
     430.317524 
     NaN 
     NaN 
     436.478109 
     
    
   
  p, q = bic_matrix.stack().idxmin()  # 先用stack展平，然后用idxmin找出最小值位置。
print(u'BIC最小的p值和q值为：%s、%s' % (p, q))
 
  BIC最小的p值和q值为：0、1
 
  model = ARIMA(data, (0, 1, 1)).fit()  # 建立ARIMA(0, 1, 1)模型
 
  给出模型报告 
  model.summary()  # 给出一份模型报告
 
   
   
     ARIMA Model Results 
    
    
     
     Dep. Variable: 
     D.销量 
     No. Observations: 
     36 
     
     
     Model: 
     ARIMA(0, 1, 1) 
     Log Likelihood 
     -205.880 
     
     
     Method: 
     css-mle 
     S.D. of innovations 
     73.086 
     
     
     Date: 
     Mon, 19 Aug 2019 
     AIC 
     417.760 
     
     
     Time: 
     10:31:54 
     BIC 
     422.510 
     
     
     Sample: 
     01-02-2015 
     HQIC 
     419.418 
     
     
      
     - 02-06-2015 
      
      
     
    
   
   
    
     
      
     coef 
     std err 
     z 
     P>|z| 
     [0.025 
     0.975] 
     
     
     const 
     49.9564 
     20.139 
     2.481 
     0.018 
     10.485 
     89.428 
     
     
     ma.L1.D.销量 
     0.6710 
     0.165 
     4.071 
     0.000 
     0.348 
     0.994 
     
    
   
   
   
     Roots 
    
    
     
      
     Real 
     Imaginary 
     Modulus 
     Frequency 
     
     
     MA.1 
     -1.4902 
     +0.0000j 
     1.4902 
     0.5000 
     
    
   
  预测 
  model.forecast(5)  # 作为期5天的预测，返回预测结果、标准误差、置信区间。
 
  (array([ 4873.9667,  4923.9232,  4973.8796,  5023.836 ,  5073.7925]),
 array([  73.0857,  142.3268,  187.5428,  223.8028,  254.957 ]),
 array([[ 4730.7213,  5017.2122],
        [ 4644.9678,  5202.8786],
        [ 4606.3024,  5341.4568],
        [ 4585.1906,  5462.4815],
        [ 4574.0858,  5573.4991]]))
 
  参考资料：炼数成金Python数据分析课程

别名	描述
B	交易日
C	自定义交易日（试验性）
D	日历日
W	每周
M	每月底
BM	每月最后一个交易日
MS	月初
BMS	每月第一个交易日
Q	季度末
BQ	每季度最后一个交易日
QS	季度初
BQS	每季度第一个交易日
A	每年底
BA	每年最后一个交易日
AS	每年初
BAS	每年第一个交易日
H	每小时
T	每分钟
S	每秒
L	毫秒
U	微秒

	Colorado	Texas	New York	Ohio
2000-01-05	0.782948	-0.890164	-0.028164	-0.493703
2000-01-12	-0.944077	0.896286	0.052383	-1.649585
2000-01-19	-3.143461	0.583063	1.952593	-1.034577
2000-01-26	1.002276	-0.390626	-1.275372	-1.293879
2000-02-02	-1.765939	-0.326712	0.209869	-1.566046
2000-02-09	-0.556474	0.854375	-2.278699	1.159897
...	...	...	...	...
2001-10-24	0.133905	-0.556946	-0.415174	-0.075620
2001-10-31	1.481011	0.176015	1.103585	0.221638
2001-11-07	-2.754221	0.000293	0.428568	-0.880257
2001-11-14	1.220620	-1.480246	2.478029	0.578780
2001-11-21	-1.274210	0.495101	-0.061771	-2.701273
2001-11-28	-0.245816	-0.784797	0.562159	0.103696

	Colorado	Texas	New York	Ohio
2001-05-02	-0.670840	1.181421	-2.120271	1.729987
2001-05-09	-0.366307	0.215251	-0.720757	-0.473165
2001-05-16	0.676114	-0.008594	2.091617	-0.759926
2001-05-23	0.275334	0.030045	-0.267771	0.056039
2001-05-30	-0.171642	-1.135467	-0.534345	2.050312

	AAPL	MSFT	XOM	SPX
2003-01-02	7.40	21.11	29.22	909.03
2003-01-03	7.45	21.14	29.24	908.59
2003-01-06	7.45	21.52	29.96	929.01
2003-01-07	7.43	21.93	28.95	922.93
2003-01-08	7.28	21.31	28.83	909.93

	AAPL	MSFT	XOM
2003-01-02	7.40	21.11	29.22
2003-01-03	7.45	21.14	29.24
2003-01-06	7.45	21.52	29.96
2003-01-07	7.43	21.93	28.95
2003-01-08	7.28	21.31	28.83

	AAPL	MSFT	XOM
2003-01-02	7.40	21.11	29.22
2003-01-03	7.45	21.14	29.24
2003-01-06	7.45	21.52	29.96
2003-01-07	7.43	21.93	28.95
2003-01-08	7.28	21.31	28.83

	销量
2015-01-01	3023.0
2015-01-02	3039.0
2015-01-03	3056.0
2015-01-04	3138.0
2015-01-05	3188.0
2015-01-06	3224.0
...	...
2015-02-01	4210.0
2015-02-02	4493.0
2015-02-03	4560.0
2015-02-04	4637.0
2015-02-05	4755.0
2015-02-06	4817.0

	销量差分
2015-01-02	16.0
2015-01-03	17.0
2015-01-04	82.0
2015-01-05	50.0
2015-01-06	36.0
2015-01-07	2.0
...	...
2015-02-01	171.0
2015-02-02	283.0
2015-02-03	67.0
2015-02-04	77.0
2015-02-05	118.0
2015-02-06	62.0

	0	1	2	3
0	432.068472	422.510082	426.088911	426.595507
1	423.628276	426.073601	NaN	NaN
2	426.774824	427.395821	NaN	NaN
3	430.317524	NaN	NaN	436.478109

ARIMA Model Results
Dep. Variable:	D.销量	No. Observations:	36
Model:	ARIMA(0, 1, 1)	Log Likelihood	-205.880
Method:	css-mle	S.D. of innovations	73.086
Date:	Mon, 19 Aug 2019	AIC	417.760
Time:	10:31:54	BIC	422.510
Sample:	01-02-2015	HQIC	419.418
	- 02-06-2015

	coef	std err	z	P>\|z\|	[0.025	0.975]
const	49.9564	20.139	2.481	0.018	10.485	89.428
ma.L1.D.销量	0.6710	0.165	4.071	0.000	0.348	0.994

Roots
	Real	Imaginary	Modulus	Frequency
MA.1	-1.4902	+0.0000j	1.4902	0.5000

Python处理CSV文件的12个高效技巧宇宙大豹发 python 开发语言
今天，我们的Python之旅，目标是那片由逗号分隔的宝藏——CSV文件。别看它简单，掌握这些技巧，你的数据处理能力将直线上升，轻松驾驭千行万列的数据海洋。让我们一起，用Python的魔力，让CSV舞动起来吧！1.初次见面，你好，CSV！安装pandas，是这场冒险的起点。它，是Python数据分析的瑞士军刀。pipinstallpandas导入我们的英雄——pandas，并亲切地叫它pd。impo
Python中Pandas常用函数及案例详解程序员爱技术 python pandas 开发语言数据分析大数据
Pandas是一个强大的Python数据分析工具库，它为Python提供了快速、灵活且表达能力强的数据结构，旨在使“关系”或“标签”数据的操作既简单又直观。Pandas的核心数据结构是DataFrame，它是一个二维标签化数据结构，可以看作是一个表格，其中可以存储不同类型的数据。下面是Pandas中一些关于导入、导出、查看、检查、选取、清理、合并、统计等常用函数的详解以及案例说明：第一、导入函数P
Python数据分析NumPy和pandas（十七、pandas 二进制格式文件处理） FreedomLeo1 Python数据分析 python 数据分析 pandas HDF5 PyTables h5py Excel
以二进制格式存储（或序列化）数据的一种简单方法是使用Python的内置pickle模块。同时，pandas构造的对象都有一个to_pickle方法，该方法以pickle格式将数据写入磁盘。我们先把之前示例用到的ex1.csv文件加载到pandas对象中，然后将数据以二进制pickle格式写入examples/frame_pickle文件中：importpandasaspdframe=pd.read
python数据分析一周速成2.连表查询【含数据库实战项目】噼里啪啦噼酷啪Q 数据分析数据分析 CDA python
连表查询结合数据库实战（sql和hive跨库取数）数据准备#前面省略数据库连接，提示：可以用pymysql和pyhive模块pre_sql="""selectap,timefrombiaoyiawherea.time>20250101"""sql_df=run_mysql(pre_sql)pre_hive="""selectapplication_number,activation_dtefrom
遍历Pandas DataFrame数据的行：方法与实践 Midsummer-逐梦 #pandas pandas python
遍历PandasDataFrame数据的行：方法与实践在数据分析和处理过程中，我们经常需要遍历PandasDataFrame中的每一行数据。Pandas提供了多种方法来满足这一需求。本文将介绍几种常见的遍历DataFrame行的方法，并讨论它们的使用场景和注意事项。一、引言Pandas是一个强大的Python数据分析库，它提供了快速、灵活、直观的数据结构，用于处理结构化数据。DataFrame是P
python数据分析pandas库安装与使用范哥来了 python 数据分析 pandas
好的，我来为你介绍如何在Python环境中安装并使用scipy和pandas这两个库。这两个库都是进行数据分析时非常有用的工具。安装首先，你需要确保你的Python环境已经配置好了pip（Python的包管理器）。如果还没有安装pip，请先安装它。对于大多数现代Python安装来说，pip是默认包含的。1.安装scipy打开命令提示符或终端，运行以下命令来安装scipy：pipinstallsci
常用Python数据分析库详解 weixin_34092370 python shell
Python之所以这么流行，这么好用，就是因为Python提供了大量的第三方的库，开箱即用，非常方便，而且还免费哦，学Python的同学里估计有30%以上是为了做数据分析师或者数据挖掘，所以数据分析相关的库一定要熟悉，那么常用的Python数据分析库有哪些呢？1.NumPyNumPy是Python科学计算的基础包，它提供：1).快速高效的多维数组对象ndarray；2).直接对数组执行数学运算及对
认识pandas 才不是小emo的小杨 pandas pandas
1认识pandasPandas是一个开源的第三方Python库，从Numpy和Matplotlib的基础上构建而来，享有数据分析“三剑客之一”的盛名（NumPy、Matplotlib、Pandas）。Pandas已经成为Python数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。1.1pandas主要特点Pandas主要包括以下几个特点：它提供了一个简单、高效
LeetCode 题目 49：字母异位词分组 5种算法实现与典型应用案例【python】数据分析螺丝钉 LeetCode刷题与模拟面试算法 leetcode python 数据结构职场和发展
作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。会一些的技术：数据分析、算法、SQL、大数据相关、python欢迎加入社区：码上找工作作者专栏每日更新：LeetCode解锁1000题:打怪升级之旅python数据分析可视化：企业实战案例备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级题目描述首先，字母异位词是指由相同字母以不同顺序组成的单词
python数据分析的基础知识—pandas中dataframe()使用 sodaloveer python数据分析基础知识 python数据分析系列 python pandas 数据分析
文章目录前言一、DataFrame创建1、函数创建2、直接创建3、字典创建二、DataFrame属性1、查看列的数据类型2、查看DataFrame的前几行后几行3、查看行名与列名4、查看数据值5、查看行列数三、DataFrame切片与索引1、普通索引2、层次化索引四、DataFrame操作1、转置2、描述性统计3、计算算术运算逻辑运算统计函数累计统计函数相关系数和协方差自定义运算4、新增5、修改6
python数据分析入门与实战王静_Keras快速上手：基于Python的深度学习实战 weixin_39724362
1准备深度学习的环境11.1硬件环境的搭建和配置选择.........................11.1.1通用图形处理单元..........................31.1.2你需要什么样的GPU加速卡....................61.1.3你的GPU需要多少内存.......................61.1.4是否应该用多个GPU..............
python数据分析之爬虫基础：爬虫介绍以及urllib详解 web13765607643 python 数据分析爬虫
前言在数据分析中，爬虫有着很大作用，可以自动爬取网页中提取的大量的数据，比如从电商网站手机商品信息，为市场分析提供数据基础。也可以补充数据集、检测动态变化等一系列作用。可以说在数据分析中有着相当大的作用！页面结构介绍这里主要介绍HTML的一些简单结构，需要一点前端的知识，可以根据情况直接跳过。Title姓名年龄性别张三18男铁锅炖大鹅小鸡炖蘑菇锅包肉奖励自己睡觉起床读书学习爬虫相关概念1、爬虫的概
Python数据分析 NumPy矩阵与通用函数及统计分析 ② 第二节修仙宝哥 python 数据分析 numpy
NumPy矩阵与通用函数及统计分析案例NumPy矩阵与通用函数及统计分析一、掌握NumPy矩阵与通用函数代码2-30：矩阵的创建代码2-31：数组的创建与组合代码2-32：矩阵的运算代码2-33：矩阵的转置、逆矩阵和二维数组视图代码2-34：数组的基本运算代码2-35：数组的比较运算代码2-36：数组的逻辑运算代码2-37：数组的广播相加（一维数组加到二维数组）代码2-38：数组的广播相加（一维数
JS宏案例：在wps编辑器中玩numpy jackispy JS宏实例 numpy 数据分析 javascript
NumPy是Python中用于科学计算的一个基础库，它提供了大量的数学函数工具，尤其是用于高效处理大型多维数组和矩阵。NumPy是Python数据分析、机器学习、科学计算等领域中不可或缺的一部分。然，在wps的js宏编辑器中，并没有这样一个模块或是全局对象，但是，问题不大，我们可以手搓一个。不过，要使用JS完全模拟python中的numpy是比较困难的，工作量也非常的大，我们可以适当简化一下，如只
《Python入门+Python爬虫》——6Day 数据库可视化——Flask框架应用不摆烂的小劉 python python flask 爬虫
Python学习版本:Python3.X观看：Python入门+Python爬虫+Python数据分析1.Flask入门1.1关于Flask1.1.1了解框架Flask作为Web框架，它的作用主要是为了开发Web应用程序。那么我们首先来了解下Web应用程序。Web应用程序(WorldWideWeb)诞生最初的目的，是为了利用互联网交流工作文档。一切从客户端发起请求开始。所有Flask程序都必须创建
python天气数据分析与处理,用python数据分析天气 2401_84504019 人工智能
本篇文章给大家谈谈python天气预报可视化分析报告，以及基于python的天气预测系统研究，希望对各位有所帮助，不要忘了收藏本站喔。基于大数据重庆市气象数据分析摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对气象数据等问题，对气象信息进行研究分析，然后开发设计出气象数据分
pandas series 相加_Numpy和Pandas教程 weixin_39778393 pandas series 相加
Pandas简介-python数据分析library-基于numpy(对ndarray的操作)-有一种用python做Excel/SQL/R的感觉-为什么要学习pandas?-pandas和机器学习的关系，数据预处理，featureengineering。-pandas的DataFrame结构和大家在大数据部分见到的spark中的DataFrame非常类似。目录-numpy速成-Series-Da
python读取excel丨换一种存储格式, 读取速度提升几倍 python技巧(数据分析及可视化) python数据分析技巧 python 数据分析数据挖掘文件读取 excel
您好,本博客将持续更新python数据分析技巧,一次解决一个问题，欢迎关注订阅!本次介绍提升excel文件读取速度问题工作中我们会有一些大文件(excel,csv等),作为基础数据经常会读取,如何减少读取时间,提升效率呢?今天用了一个88万行13列的表格,按不同的方式读取比较读取用时如下:excel文件:文大小61.9M,读取用时200秒csv文件:文件大小194M,读取用时5秒hdf文件:文件大
python数据分析基础002 -使用matplotlib绘图（散点图，条形图，直方图） 2401_84139192 程序员 python 数据分析 matplotlib
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
python数据分析一周速成2.数据计算噼里啪啦噼酷啪Q python 数据分析 CDA
python数据分析一周速成2.数据计算一、按列聚合计算（常用函数，五星推荐describe一键多维展示）importnumpyasnpimportpandasaspdd=np.array([[1,12,13,15,16],[23,28,24,215,26],[370,39,355,325,3],[47,49,45,42,482],[571,519,5,52,57],[61,69,
Python数据分析实战案例 master_chenchengg python python Python python开发 IT
Python数据分析实战案例数据分析的魅力：Python与Pandas的完美结合初识Pandas：数据处理的瑞士军刀环境搭建：如何在本地安装Pandas第一步：加载和查看你的第一个数据集数据清洗的艺术：让数据更干净缺失值处理：填补或删除缺失数据异常值检测：找出数据中的“怪兽”重复数据处理：告别冗余数据探索与可视化：揭开数据的神秘面纱基本统计分析：了解数据的基本特征数据可视化：用图表讲述数据的故事相
【Python数据分析五十个小案例】使用自然语言处理（NLP）技术分析 Twitter 情感小馒头学python python 数据分析自然语言处理
博客主页：小馒头学python本文专栏:Python爬虫五十个小案例专栏简介：分享五十个Python爬虫小案例项目简介什么是情感分析情感分析（SentimentAnalysis）是文本分析的一部分，旨在识别文本中传递的情感信息，例如正面、负面或中立情绪。为什么选择Twitter数据数据丰富：Twitter上每天产生数百万条推文，内容多样。即时性：适合实时分析。公开可用：提供API可轻松访问。NLP
Python数据分析与可视化大作业项目说明（含免费代码） yava_free python 数据分析课程设计
题目：对全球和中国互联网用户的数据分析与可视化代码下载链接：https://download.csdn.net/download/s44359487yad/89574688一、项目概述1.1.项目背景：互联网是当今时代最重要和最有影响力的技术之一，它已经深刻地改变了人们的生活、工作、学习等方面。互联网用户数据是反映互联网发展水平和潜力的重要指标，它可以帮助我们了解不同国家地区在互联网领域的优势和劣
Python数据分析与可视化程序媛小果 python python 数据分析开发语言
Python数据分析与可视化在数据驱动的商业世界中，数据分析和可视化成为了理解复杂数据集、做出明智决策的关键工具。Python，作为一种功能强大且易于学习的编程语言，提供了丰富的库和框架，使得数据分析和可视化变得简单高效。本文将探讨Python在数据分析和可视化中的应用，包括数据预处理、分析、以及如何通过可视化工具将数据洞察转化为可操作的策略。1.数据分析的重要性数据分析是提取数据中有用信息的过程
python数据分析一周速成1.先从查询开始吧噼里啪啦噼酷啪Q 数据分析 python 数据分析 CDA
写在前面众所周知，20%的知识点可以覆盖80%的使用场景。时间就是生命~~咱主打一个“用最小的成本，收获最大化”！有它了不仅不怕excel卡顿，还能实现懒人神器——办公自动化，你喝茶他干活，鼠标自由咯！快跟我来，感受一周速成的效率~~首先，安装python+编辑器（cmd下载和anaconda一个效果嗷）：下载python：来官网DownloadPython|Python.org（建议用3.8~3
python判断数据和excel中是否相等_对比Excel学习python数据分析-学习笔记4 re1key
一对一替换多对一替换多对多替换参考一列数值进行排序参照有缺失值的列排序参考多数值列排序数值排名删除列删除行删除特定列行数值计数唯一值获取数值查找区间切分插入新的行或列行列互换索引重塑长宽表转换apply()和applymap()函数1.数值替换一对一替换replace(A,B)-用B替换A；replace(A,B,inplace=True)-用B替换A，元数据也将被替换掉；replace(np.N
python数据分析之matplotlib绘图 plt 的使用 OpenCv学堂视觉_Opencv
废话不多说，先上一张图:完整代码以及数据：https://download.csdn.net/download/bamboo265925/11548633（提供支持，公众号：海之鹰工作室）importosimportmathimportmatplotlib.pyplotaspltdefreadTxtShow(rootdir):withopen(rootdir,'r',encoding='utf-8
使用 Pandas 处理 .xlsx 文件的教程(Python) Persus pandas python 开发语言表格 xlsx 数据分析
使用Pandas处理.xlsx文件的教程Pandas是Python数据分析的核心库之一，它提供了丰富的数据处理功能，尤其在处理表格数据（如.xlsx文件）时非常强大。Pandas结合了Python的灵活性和简洁性，让用户能够轻松地进行数据的读写、清洗、操作和分析。本文将介绍如何使用Pandas处理.xlsx文件的常见操作，包括读取、写入、筛选、合并和统计等操作。一、环境配置1.安装Pandas首先
Python 数据分析 - 初识 Pandas 一名技术极客 #Python 进阶爬虫 python 数据分析 pandas
Python数据分析-初识Pandas简介SeriesDataFrame创建基本操作添加删除简介Pandas基于NumPy开发，它提供了快速、灵活、明确的数据结构，旨在简单、直观地处理数据。Pandas适用于处理以下类型的数据：有序和无序的时间序列数据带行列标签的矩阵数据，包括同构或异构型数据与SQL或Excel表类似的，含异构列的表格数据任意其它形式的观测、统计数据集，数据转入Pandas数据结
【Python数据分析】Pandas_Series如何转变为DataFrame Root_Smile 【Python数据分析】python 数据分析 pandas
1.使用pd.DataFrame()构造函数可以使用pd.DataFrame()构造函数将Series转换为DataFrame。在构造函数中，将Series作为一个列传递给DataFrame，并且可以通过指定列名来为DataFrame的列命名。代码示例：importpandasaspddata=[10,20,30,40,50]index=['A','B','C','D','E']series=pd
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

	销量
日期
2015-01-01	3023.0
2015-01-02	3039.0
2015-01-03	3056.0
2015-01-04	3138.0
2015-01-05	3188.0
2015-01-06	3224.0
...	...
2015-02-01	4210.0
2015-02-02	4493.0
2015-02-03	4560.0
2015-02-04	4637.0
2015-02-05	4755.0
2015-02-06	4817.0

Python数据分析_第12课：时间序列分析_笔记

文章目录

时间基本处理

字符串转日期

pands中的时间序列

日期范围、频率与移动

时间序列可视化

时间序列案例分析

参数初始化

时序图

自相关图

平稳性检测

差分后的结果

时序图

自相关图

偏自相关图

平稳性检测

白噪声检验

建立ARIMA模型（差分整合移动平均自回归模型）

给出模型报告

预测

你可能感兴趣的:(Python数据分析)