138、时间序列

日期和时间数据类型

Python标准库包含用于日期(date)和时间(time)数据的数据类型,而且还有日历方面的功能。主要用到datetime、time以及calendar模块。

用得最多的数据类型是datetime:
138、时间序列_第1张图片
1.png

datetime以毫秒形式存储日期和时间。datetime.timedelta表示两个datetime对象之间的时间差:
138、时间序列_第2张图片
2.png

给datetime对象加上(或减去)一个或多个timedelta,这样会产生一个新对象:
138、时间序列_第3张图片
3.png

字符串和datetime的相互转换

利用str或strftime方法(传入一个格式化字符串),datetime对象和pandas的Timestamp对象可以被格式化为字符串:
138、时间序列_第4张图片
4.png

使用第三方包中的parser.parse方法解析常见的日期格式:
138、时间序列_第5张图片
5.png

在国际通用的格式,日通常出现在月的前面,传入dayfirst=True可以按照年月日的方式显示:
138、时间序列_第6张图片
6.png

时间序列基础

pandas最基本的时间序列类型是以时间戳(通常以Python字符串或datatime对象表示)为索引的Series:
138、时间序列_第7张图片
21.png

跟其他Series一样,不同索引的时间序列之间的算术运算会自动按日期对齐:
138、时间序列_第8张图片
22.png

索引、选取、子集构造

传入一个可以被解释为日期的字符串,可以查找对应的数据:
138、时间序列_第9张图片
31.png

传入“年”或“年月”可以选取数据的切片,在下面例子中periods=1000表示设定时间的长度为1000,默认是天:
138、时间序列_第10张图片
32-1.png
138、时间序列_第11张图片
32-2.png
138、时间序列_第12张图片
32-3.png

对于规则Series,可以通过日期进行切片:
138、时间序列_第13张图片
33.png

使用不存在该时间序列的时间戳对其进行切片(即范围查询):
138、时间序列_第14张图片
34.png

通过实例方法truncate(after='日期')截取两个日期之间TimeSeries:
138、时间序列_第15张图片
35.png

时间序列对于DataFrame也同样适用:
138、时间序列_第16张图片
36.png

源码:

# coding: utf-8

# ## 日期和时间数据类型

# In[1]:

from datetime import datetime
now = datetime.now()
print(now)


# In[2]:

# 只截取年月日
now.year,now.month,now.day


# In[3]:

# 计算时间差
delta = datetime(2018,2,3) - datetime(2016,6,26,10,10)
print(delta)


# In[4]:

delta.seconds


# In[5]:

# 给datetime对象加上(或减去)一个或多个timedelta
from datetime import timedelta
start = datetime(2018,1,9)
start + timedelta(12)


# In[6]:

start - 2 * timedelta(12)


# ## 字符串和datetime的相互转换

# In[7]:

stamp = datetime(2018,2,3)
str(stamp)


# In[8]:

stamp.strftime('%Y-%m-%d')


# In[9]:

from dateutil.parser import parse
parse('2017-12-23')


# In[10]:

parse('Jan 11, 1993 11:11 PM') # 此处1993前一定要留空格,否则默认使用系统当前年份


# In[11]:

'''
在国际通用的格式,日通常出现在月的前面,
传入dayfirst=True可以按照年月日的方式显示
'''
parse('6/12/2011',dayfirst=True)


# ## 时间序列基础

# In[12]:

import numpy as np
from pandas import Series,DataFrame
import pandas as pd
from datetime import datetime


# In[13]:

# # 以时间戳为索引的Series
dates = [datetime(2018,1,2),datetime(2018,1,5),datetime(2018,1,7),
         datetime(2018,1,8),datetime(2018,1,10),datetime(2018,1,12)] 
ts = Series(np.random.randn(6),index=dates)
print(ts)


# In[14]:

type(ts)


# In[15]:

ts.index


# In[16]:

ts + ts[::2]


# In[17]:

ts.index.dtype


# In[18]:

stamp = ts.index[0]
print(stamp)


# ### 索引、选取、子集构造

# In[19]:

# 传入一个可以被解释为日期的字符串
ts['1/10/2018']


# In[20]:

ts['20180110']


# In[21]:

# 传入“年”或“年月”可以选取数据的切片
# 下面例子中periods=1000表示设定时间的长度为1000天
longer_ts = Series(np.random.randn(1000),
                   index=pd.date_range('1/1/2000',periods=1000)) 
print(longer_ts)


# In[22]:

# 查找一年的数据
longer_ts['2001']


# In[23]:

# 查找一个月的数据
longer_ts['2001-05']


# In[24]:

# 对于规则Series,可以通过日期进行切片
ts[datetime(2018,1,7):]


# In[25]:

# 使用不存在该时间序列的时间戳对其进行切片(即范围查询)
print(ts)


# In[26]:

# 范围查询
ts['1/3/2018':'1/9/2018']


# In[27]:

# 通过实例方法truncate(after='日期')截取两个日期之间TimeSeries
ts.truncate(after='1/9/2018')


# In[28]:

# 时间序列对于DataFrame也同样适用
# 下面的freq='W-WED'表示设定落在周三的所有日期
dates = pd.date_range('1/1/2017',periods=100,freq='W-WED') 
long_df = DataFrame(np.random.randn(100,4),
                    index=dates,
                    columns=['Colorado','Texas','New York','Ohio'])
long_df.loc['5-2017']

你可能感兴趣的:(138、时间序列)