Python教程网:www.python88.cn
时间序列是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,12小时,7天,1年),因此时间序列可以作为离散时间数据进行分析处理。
例如:某监控系统的折线图表,显示了请求次数和响应时间随时间的变化趋势
# pd将时间数据转换成pandas时间类型
# 1、填入时间的字符串,格式有几种, "2018-01-01" ,”01/02/2018“
pd.to_datetime("01/02/2017")
如果我们传入的是多个时间点,那么会是什么样的?
from datetime import datetime
# 传入时间的列表
date1 = ["2017-01-01", "2017-02-01", "2017-03-01"]
pd.to_datetime(date1)
# 或者
date2 = [datetime(2018, 3, 1), datetime(2018, 3, 2), datetime(2018, 3, 3), datetime(2018, 3, 4), datetime(2018, 3, 5)]
date2 = pd.to_datetime(date2)
# 如果其中有空值
date3 = [datetime(2018, 3, 1), datetime(2018, 3, 2), np.nan, datetime(2018, 3, 4), datetime(2018, 3, 5)]
date3 = pd.to_datetime(date3)
# 结果会变成NaT类型
DatetimeIndex(['2018-03-01', '2018-03-02', 'NaT', '2018-03-04', '2018-03-05'], dtype='datetime64[ns]', freq=None)
# DateTimeIndex
pd.to_datetime(date1)
DatetimeIndex(['2018-03-01', '2018-03-02', '2018-03-03', '2018-03-04',
'2018-03-05'],
dtype='datetime64[ns]', freq=None)
pd.to_datetime(date1).values
array(['2018-03-01T00:00:00.000000000', '2018-03-02T00:00:00.000000000',
'2018-03-03T00:00:00.000000000', '2018-03-04T00:00:00.000000000',
'2018-03-05T00:00:00.000000000'], dtype='datetime64[ns]')
我们也可以通过DatetimeIndex来转换
pd.DatetimeIndex(date1)
知道了时间序列类型,我们就可以用这个当做索引,获取数据
# 最基础的pandas的时间序列结构,以时间为索引的Series序列结构
>>>series_date = pd.Series(3.0, index=date1)
返回:
2017-01-01 3.0
2017-02-01 3.0
2017-03-01 3.0
dtype: float64
>>>pd.to_datetime(series_date)
2017-01-01 1970-01-01 00:00:00.000000003
2017-02-01 1970-01-01 00:00:00.000000003
2017-03-01 1970-01-01 00:00:00.000000003
dtype: datetime64[ns]
>>>pd.DatetimeIndex(series_date)
DatetimeIndex(['1970-01-01 00:00:00.000000003',
'1970-01-01 00:00:00.000000003',
'1970-01-01 00:00:00.000000003'],
dtype='datetime64[ns]', freq=None)
pandas时间序列series的index必须是DatetimeIndex
time.year
time.month
time.weekday
参数 | 含义 |
---|---|
D | 每日 |
B | 每工作日 |
H、T或者min、S | 时、分、秒 |
M | 每月最后一天 |
BM | 每月最后一个工作日 |
WOM-1MON, WOM-3FRI | 每月第几周的星期几 |
# 生成指定的时间序列
# 1、生成2017-01-02~2017-12-30,生成频率为1天, 不跳过周六周日
pd.date_range("2017-01-02", "2017-12-30", freq="D")
# 2、生成2017-01-02~2017-12-30,生成频率为1天, 跳过周六周日, 能够用在金融的数据,日线的数据
pd.date_range("2017-01-02", "2017-12-30", freq="B")
# 3、只知道开始时间日期,我也知道总共天数多少,生成序列, 从"2016-01-01", 共504天,跳过周末
pd.date_range("2016-01-01", periods=504, freq="B")
# 4、生成按照小时排列的时间序列数据
pd.date_range("2017-01-02", "2017-12-30", freq='H')
# 5、按照3H去进行生成
pd.date_range("2017-01-02", "2017-12-30", freq='3H')
# 6、按照1H30分钟去进行生成时间序列
pd.date_range("2017-01-02", "2017-12-30", freq='1H30min')
# 7、按照每月最后一天
pd.date_range("2017-01-02", "2017-12-30", freq='BM')
# 8、按照每个月的第几个星期几
pd.date_range("2017-01-02", "2017-12-30", freq='WOM-3FRI')
对于时间序列类型,有特有的分析方法。同样股票本身也是一种时间序列类型,我们就以股票的数据来进行时间序列的分析
时间序列分析( time series analysis)方法,强调的是通过对一个区域进行一定时间段内的连续观察计算,提取相关特征,并分析其变化过程。
时间序列分析主要有确定性变化分析
主要用在时间序列的数组变换, 不同作用的函数将它们统称为移动窗口函数
那么会有各种观察窗口的方法,其中最常用的就是移动平均法
注:不同的移动平均线方法不一样
1)简单移动平均线
简单移动平均线(SMA),又称“算数移动平均线”,是指特定期间的收盘价进行平均化。
比如说,5日的均线SMA=(C1+ C2 + C3 + C4 + C5) / 5
例子:
拿到股票数据,画出K线图
# 拿到股票K线数据
stock_day = pd.read_csv("./stock_day/stock_day.csv")
stock_day = stock_day.sort_index()
stock_day.index = pd.to_datetime(stock_day.index)
stock_day['date'] = date2num(stock_day.index)
arr = stock_day[['date', 'open', 'close', 'high', 'low']]
values = arr.values[:200]
# 画出K线图
fig, axes = plt.subplots(nrows=1, ncols=1, figsize=(20, 8), dpi=80)
candlestick_ochl(axes, values, width=0.2, colorup='r', colordown='g')
axes.xaxis_date()
plt.show()
2)计算移动平均线
pandas.rolling_mean(arg, window, min_periods=None, freq=None, center=False, how=None, **kwargs) Moving mean.
Parameters:
# 直接对每天的收盘价进行求平均值, 简单移动平局线(SMA)
# 分别加上短期、中期、长期局均线
pd.rolling_mean(stock_day["close"][:200], window=5).plot()
pd.rolling_mean(stock_day["close"][:200], window=10).plot()
pd.rolling_mean(stock_day["close"][:200], window=20).plot()
pd.rolling_mean(stock_day["close"][:200], window=30).plot()
pd.rolling_mean(stock_day["close"][:200], window=60).plot()
pd.rolling_mean(stock_day["close"][:200], window=120).plot()
3)加权移动平均线 (WMA)
加权移动平均线 (WMA)将过去某特定时间内的价格取其平均值,它的比重以平均线的长度设定,愈近期的收市价,对市况影响愈重要。
正因加权移动平均线强调将愈近期的价格比重提升,故此当市况倒退时,加权移动平均线比起其它平均线更容易预测价格波动。但是我们还是不会轻易使用加权,应为他的比重过大!!!!
4)指数平滑移动平均线(EWMA)
是因应移动平均线被视为落后指标的缺失而发展出来的,为解决一旦价格已脱离均线差值扩大,而平均线未能立即反应,EWMA可以减少类似缺点。
总结:
# 画出指数平滑移动平均线
pd.ewma(stock_day['close'][:200], span=10).plot()
pd.ewma(stock_day['close'][:200], span=30).plot()
pd.ewma(stock_day['close'][:200], span=60).plot()
# 求出指定窗口大小的收盘价标准差和方差
pd.rolling_var(stock_day['close'][:200], window=10).plot()
pd.rolling_std(stock_day['close'][:200], window=10).plot()
frame = stock_day[['open','volume', 'ma20', 'p_change', 'turnover']]
pd.scatter_matrix(frame, figsize=(20, 8))
从中我们可以简单看到成交量(volume)和换手率(turnover)有非常明显的线性关系,因为换手率的定义就是:成交量除以发行总股数。
通过一些图或者相关性分析可以找到强相关的一些指标,在机器学习、量化中会详细介绍
相关系数:后面会介绍,目前我们只需知道他是反应两个序列之间的关系即可
ma_list = [5, 20 ,60]
for ma in ma_list:
stock_day['MA' + str(ma)] = pd.rolling_mean(stock_day.close, window=ma)
for ma in ma_list:
stock_day['EMA' + str(ma)] = pd.ewma(stock_day.close, span=ma)
data.to_csv("EWMA.csv")
移动平均线经常会作为技术分析的基础理论,从中衍生出各种技术指标策略。后面将会介绍简单的基于均线的策略。
Python爬虫人工智能大数据公众号