datamonday

Pandas时间序列数据处理和datetime模块详细教程

时间序列分析中，常常需要处理时间相关数据，故参考《Python for Data Analysis》总结了Python和Pandas常用的时间序列数据处理的相关操作，并在 Python3.8.0 的 jupyter notebook 环境下测试通过。

源码已上传到 github：https://github.com/datamonday/Time-Series-Analysis-Tutorial/

自取，欢迎star，fork！

文章目录

重要的Python库
- NumPy
- Pandas
- matplotlib
- IPython
- Scipy
Python 标准库
- collections
- functools
- itertools
- operator
1. IPython
- 1.1 IPython基本使用
- - 1) 内省 introspection
  - 2) `%run` 命令运行 `.py` 文件
  - 3) `%paste` 执行剪切板的代码
  - 4) `%timeit` 检测语句平均执行时间
  - 5) 魔术命令之后添加 `?` 查看帮助
- 1.2 常用的IPython魔术命令
- 1.3 使用命令历史
- - 1) 搜索并重用命令历史
  - 2) 记录输入和输出
- 1.4 与操作系统交互
- - 1) shell命令和别名
  - 2) 目录书签系统
  - 3) 与系统相关的魔术命令
1. 日期和时间数据类型
- 1.1 Datetime Format
- 1.2 datetime.datetime
- 1.3 datetime.timedelta
- 1.4 字符串和datetime的相互转换
- 1.5 `NaT` (Not a Time) —— pandas中时间戳数据的NA值
- 1.6 Pandas与datetime的关系
- 1.7 索引、选取、子集构造
- - 1) 索引
  - 2) 切片
  - 3) 子集构造
  - 4) pd.date_range()
  - 5) DataFrame.iloc
- 1.8 带有重复索引的时间序列
- - 对非唯一索引进行聚合 groupby
2. 日期的范围、频率及移动
- - 2.1 生成日期范围 `pd.date_range()`
  - 使用 `freq` 参数
  - 使用 `peroids` 参数
  - 使用 `normalize` 参数
- 2.2 频率和日期偏移量
- - 传入频率字符串
  - 时间序列基础频率参数 `freq` 表
- 2.3 移动（超前和滞后）数据
- - 计算一个或多个时间序列中的百分比变化
  - 通过偏移量对日期进行位移
3. 时期及其算术运算
- 3.1 时期的频率转换
4. 重采样即频率转换
- 4.1 降采样
- - `closed` 参数
  - `label` 参数
  - `loffset` 参数
- 4.2 OHLC 重采样
- 4.3 `.groupby()` 重采样
- 4.4 升采样和插值

重要的Python库

NumPy

Python科学计算基础包。

Pandas

提供了能够快速便捷地处理结构化数据的大量数据结构和函数。

matplotlib

用于绘制图表的Python库。

IPython

Python科学计算标准工具集的组成部分，它将所有的东西联系到了一起。它是一个增强的Power shell，目的是提高编写、测试、调试Python代码的速度。

Scipy

专门解决科学计算中各种标准问题域的包的集合。

Python 标准库

collections

collections模块包含了除list、dict、和tuple之外的容器数据类型，如counter、defaultdict、deque、namedtuple、orderdict。

functools

functools提供了一些非常有用的高阶函数（一个可以接受函数作为参数或者以函数作为返回值的函数），因为Python中函数也是对象，因此很容易支持这样的函数式特性。

itertools

Python 内置的 itertools 模块包含了一系列用来产生不同类型迭代器的函数或类，这些函数的返回都是一个迭代器，可以通过 for 循环来遍历取值，也可以使用 next() 来取值。

operator

operator模块输出一系列对应Python内部操作符的函数。

import collections

collections.defaultdict(int)

defaultdict(int, {})

collections.Counter(['a', 'b', 'c', 'a', 'b', 'b'])

Counter({'a': 2, 'b': 3, 'c': 1})

# OrderedDict是字典子类，记得其内容被添加的顺序
d = collections.OrderedDict()
d['a'] = 'A'
d['b'] = 'B'
d['c'] = 'C'
d['d'] = 'D'
d['e'] = 'E'
for k, v in d.items():
    print (k, v)

a A
b B
c C
d D
e E

# namedtuple 标准的元组使用数值索引来访问其成员
Person = collections.namedtuple('Person', 'name age gender')
print('Type of Person:', type(Person))
bob = Person(name='Bob', age=30, gender='male')
print('\nRepresentation:', bob)
jane = Person(name='Jane', age=29, gender='female')
print('\nField by name:', jane.name)
print('\nFields by index:')
for p in [bob, jane]:
    print('%s is a %d year old %s' % p)

Type of Person: 

Representation: Person(name='Bob', age=30, gender='male')

Field by name: Jane

Fields by index:
Bob is a 30 year old male
Jane is a 29 year old female

1. IPython

1.1 IPython基本使用

IPython设计的目的是在交互式计算和软件开发这两个方面最大化地提高生产力。它鼓励一种“执行-探索（execute explore）”的工作模式，而不是传统的编程语言那样“编辑-编译-运行”的工作模式。此外，它跟操作系统shell和文件系统之间也有非常紧密的集成。

1) 内省 introspection

变量的前面或后面加上一个 ? 就可以将有关该对象的一些通用信息显示出来。

如果该对象是一个函数或实例方法，则其docstring也会被显示出来。使用 ?? 可以将源代码显示出来！

d?

def func():
    """
    this is a function.
    """
    pass

func??

2) `%run` 命令运行 `.py` 文件

例如：%run test.py

%run test.py

This is a test.py file.

3) `%paste` 执行剪切板的代码

%paste

UsageError: Line magic function `%paste` not found.

4) `%timeit` 检测语句平均执行时间

import numpy as np

a = np.random.rand(10, 10)
a

array([[0.46211168, 0.22630265, 0.28259665, 0.97387306, 0.47081586,
        0.14182512, 0.41340276, 0.12707679, 0.8895837 , 0.30759639],
       [0.84395636, 0.1248409 , 0.69082745, 0.58846353, 0.99039773,
        0.10359163, 0.60211887, 0.5774512 , 0.75732393, 0.12422298],
       [0.64821667, 0.89221404, 0.33139232, 0.18304072, 0.26270739,
        0.77921959, 0.93650007, 0.85992434, 0.77704277, 0.03891065],
       [0.35931267, 0.09012513, 0.4823769 , 0.52336705, 0.20844103,
        0.90301359, 0.00919512, 0.55454685, 0.69982842, 0.5021466 ],
       [0.20217792, 0.19311089, 0.5529079 , 0.67564787, 0.74854923,
        0.57602856, 0.96100281, 0.84684755, 0.12989536, 0.74290378],
       [0.26534835, 0.03692661, 0.57169047, 0.52466825, 0.05628971,
        0.64878741, 0.68047402, 0.31185786, 0.92138033, 0.22662803],
       [0.10471625, 0.228826  , 0.69678838, 0.17964497, 0.1648506 ,
        0.70488934, 0.6067039 , 0.00308847, 0.86371306, 0.76178354],
       [0.58855856, 0.71203543, 0.28736408, 0.59734097, 0.71014777,
        0.48445923, 0.5257723 , 0.2564133 , 0.4142803 , 0.44428806],
       [0.07114903, 0.98132127, 0.26579247, 0.45132077, 0.96146673,
        0.34659217, 0.42372046, 0.88804888, 0.16636914, 0.58769465],
       [0.83123175, 0.47628307, 0.95260933, 0.57561817, 0.26433776,
        0.83041377, 0.63345801, 0.8375409 , 0.70253952, 0.48322932]])

%time np.dot(a, a)

Wall time: 47.4 ms

array([[1.5075262 , 1.77344369, 2.04578478, 2.26586517, 2.17435409,
        2.46854704, 2.03928041, 2.49689024, 2.4492415 , 2.09501666],
       [1.94239149, 2.42234753, 2.3494751 , 2.91971792, 2.84264214,
        2.90984761, 3.16719972, 2.89725678, 2.99058765, 2.57707086],
       [2.28481157, 2.25740624, 2.73164319, 2.95410019, 3.07700359,
        2.64310586, 3.27412654, 2.39556882, 3.71175246, 2.35772097],
       [1.81913524, 1.96659567, 2.03773315, 2.31758048, 1.9020278 ,
        2.54939408, 2.38591951, 2.44514376, 2.69496918, 1.67011591],
       [2.38758637, 2.09407983, 3.09806772, 2.73807987, 2.2463577 ,
        3.64414226, 3.38912876, 2.75856444, 3.58093959, 2.67726265],
       [1.4051585 , 2.04671592, 1.96961381, 1.89263097, 1.77913221,
        2.55234246, 2.27849955, 2.177712  , 2.70994768, 1.86869604],
       [1.73811922, 2.09943626, 2.37824665, 1.87855529, 1.79351278,
        2.65711793, 2.69158968, 2.6113883 , 2.80866464, 1.79943712],
       [2.15069278, 1.60837059, 2.68458061, 2.78173843, 2.52567871,
        2.6512988 , 2.86954672, 2.62417428, 3.18415682, 2.1905968 ],
       [2.54926915, 1.78734864, 2.88806434, 2.78303881, 2.9243154 ,
        2.77969529, 3.19992732, 2.84582812, 2.94751504, 2.27268228],
       [2.89513613, 2.89197088, 3.10730295, 3.38902758, 2.98032816,
        3.61738667, 3.77539154, 3.24719134, 4.39313734, 2.52658971]])

%timeit np.dot(a, a)

2.31 Âľs Âą 188 ns per loop (mean Âą std. dev. of 7 runs, 100000 loops each)

5) 魔术命令之后添加 `?` 查看帮助

%timeit?

1.2 常用的IPython魔术命令

# 显示IPython的快速参考
%quickref

# 显示所有魔术命令的文档
%magic

raise ValueError("Test")

---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)

 in 
----> 1 raise ValueError("Test")


ValueError: Test

# 从最新的异常跟踪的底部进入交互式调试器
%debug

# 打印命令的输入（可选输出）的历史
%hist

# 删除交互式命令空间中的全部变量/名称
%reset

Once deleted, variables cannot be recovered. Proceed (y/[n])? n
Nothing done.

# 通过分页打印输出对象
%page a

# 显示交互式命名空间中定义的变量，信息级别/冗余度可变
%who

Person	 a	 bob	 collections	 d	 func	 jane	 k	 np	 
p	 v

%who_ls

['Person', 'a', 'bob', 'collections', 'd', 'func', 'jane', 'k', 'np', 'p', 'v']

%whos

Variable      Type           Data/Info
--------------------------------------
Person        type           
a             ndarray        10x10: 100 elems, type `float64`, 800 bytes
bob           Person         Person(name='Bob', age=30, gender='male')
collections   module         ollections\\__init__.py'>
d             OrderedDict    OrderedDict([('a', 'A'), <...> ('d', 'D'), ('e', 'E')])
func          function       
jane          Person         Person(name='Jane', age=29, gender='female')
k             str            e
np            module         ges\\numpy\\__init__.py'>
p             Person         Person(name='Jane', age=29, gender='female')
v             str            E

b = 10
c = b

# 删除变量，并尝试清楚其在IPython中的一切引用
%xdel b

# 变量b被删除，并把b的引用c一并删除！
c

---------------------------------------------------------------------------

NameError                                 Traceback (most recent call last)

 in 
      1 # 变量b被删除，并把b的引用c一并删除！
----> 2 c


NameError: name 'c' is not defined

1.3 使用命令历史

1) 搜索并重用命令历史

在win10 pycharm ipython console 和 jupyter notebook都测试了，发现然并卵。

2) 记录输入和输出

IPython能够记录整个控制台会话，包括输入和输出。执行 %logstart 即可开始记录日志：

%logstart

Activating auto-logging. Current session state plus future input saved.
Filename       : ipython_log.py
Mode           : rotate
Output logging : False
Raw input log  : False
Timestamping   : False
State          : active

%logstart?

几个相似的命令

%logoff
%logon
%logstate
%logstop

%logon

Logging is already ON

%logstate

Filename       : ipython_log.py
Mode           : rotate
Output logging : False
Raw input log  : False
Timestamping   : False
State          : active

1.4 与操作系统交互

IPython与操作系统shell结合得非常紧密。也就是说，可以直接在其中实现标准的windows或unix命令行活动。比如执行shell命令、更改目录、将命令的执行结果保存到Python对象中等。此外，还提供了shell命令别名以及目录书签等功能。

1) shell命令和别名

以 ! 开头的命令行表示其后的所有内容都需要在系统shell中执行。

# pycharm ipython console测试可用
# jupyter notebook不可用
!python

# pycharm ipython console测试可用
# jupyter notebook不可用
!cmd

%dirs

[]

2) 目录书签系统

IPython有一个简单的目录书签系统，它使你能够保存常用目录的别名以便实现快速跳转。首先定义书签：

%bookmark bm ./bookmarks/

cd bm

(bookmark:bm) -> ./bookmarks/
D:\Github\Time-Series-Analysis-Tutorial\03 Time Series Analysis\bookmarks

# 列出所有书签
%bookmark -l

Current bookmarks:
bm -> ./bookmarks/

3) 与系统相关的魔术命令

ls

# 将当前目录入栈，并专项目标目录
%pushd ./bookmarks

[WinError 2]系统找不到指定的文件。: './bookmarks'
D:\Github\Time-Series-Analysis-Tutorial\03 Time Series Analysis\bookmarks

['D:\\Github\\Time-Series-Analysis-Tutorial\\03 Time Series Analysis\\bookmarks']

# 弹出栈顶项目录，并转向目标目录
%popd

D:\Github\Time-Series-Analysis-Tutorial\03 Time Series Analysis\bookmarks
popd -> D:\Github\Time-Series-Analysis-Tutorial\03 Time Series Analysis\bookmarks

# 返回上级目录
!cd ..

# 返回一个含有当前目录栈的列表
%dirs

[]

# 打印目录访问历史
%dhist

Directory history (kept in _dh)
0: D:\Github\Time-Series-Analysis-Tutorial\03 Time Series Analysis
1: D:\Github\Time-Series-Analysis-Tutorial\03 Time Series Analysis\bookmarks

# 以字典形式返回系统环境变量
%env

{'ALLUSERSPROFILE': 'C:\\ProgramData',
 'ANDROID_HOME': 'C:\\Users\\34123\\AppData\\Local\\Android\\Sdk',
 'APPDATA': 'C:\\Users\\34123\\AppData\\Roaming',
 'ASL.LOG': 'Destination=file',
 'CLASSPATH': '.;C:\\Program Files\\Java\\jdk1.8.0_281\\lib\\dt.jar;C:\\Program Files\\Java\\jdk1.8.0_281\\lib\\tools.jar',
 'CLION': 'C:\\Project\\CLion 2020.2.3\\bin;',
 'COMMONPROGRAMFILES': 'C:\\Program Files\\Common Files',
 'COMMONPROGRAMFILES(X86)': 'C:\\Program Files (x86)\\Common Files',
 'COMMONPROGRAMW6432': 'C:\\Program Files\\Common Files',
 'COMPUTERNAME': 'DESKTOP-QGMPJ0Q',
 'COMSPEC': 'C:\\WINDOWS\\system32\\cmd.exe',
  ...}

!nvcc -V

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Wed_Jul_22_19:09:35_Pacific_Daylight_Time_2020
Cuda compilation tools, release 11.0, V11.0.221
Build cuda_11.0_bu.relgpu_drvr445TC445_37.28845127_0

时间序列数据是一种重要的结构化数据形式。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。根据时间序列的适用场景可以分为以下几种：

时间戳(timestamp): 特定的时刻。
固定日期(period): 如2021年全年。
时间间隔(interval): 由起始时间和结束时间戳表示。
实验或过程时间: 每个时间都是相对于特定起始时间的一个度量。

import pandas as pd
import numpy as np

1. 日期和时间数据类型

Python标准库中最常使用的数据类型为 datetime.datetime。主要的模块为：datetime, time, calendar。

1.1 Datetime Format

%Y: 4位数的年
%y: 2位数的年
%m: 2位数的月 [01,12]
%d: 2位数的日 [01,31]
%H: 24小时制时 [00,23]
%I: 12小时制时 [01,12]
%M: 2位数的分 [00,59]
%S: 秒 [00,61] (60和61用于闰秒)

%w: 用整数表示的星期几 [0(星期天),6]
%U: 每年的第几周 [0, 53]。星期天被认为是每周的第一天，每年第一个星期天之前的那几天被认为是第0周。
%W: 每年的第几周 [0, 53]。星期一被认为是每周的第一天，每年第一个星期天之前的那几天被认为是第0周。

%F: %Y-%m-%d的简写形式，例如2021-5-23
%D: %m/%d/%y的简写形式，例如23/05/21

限于当前环境的日期格式

%a: 星期几的简写
%A: 星期几的全称
%b: 月份的简写
%B: 月份的全称
%c: 完整的日期和时间
%p: 不同环境的AM和PM
%x: 适用于当前环境的日期格式
%X: 适用于当前环境的时间格式

1.2 datetime.datetime

from datetime import datetime

now = datetime.now()
now

datetime.datetime(2021, 6, 1, 19, 22, 46, 84249)

# 1.访问其属性
now.year, now.month, now.day

(2021, 6, 1)

now.hour, now.minute, now.second

(19, 22, 46)

1.3 datetime.timedelta

# 2.datetime对象的运算
start = datetime(2020, 1, 20)
diff = now - start
diff

datetime.timedelta(days=498, seconds=69766, microseconds=84249)

diff.days

diff.seconds

now

datetime.datetime(2021, 6, 1, 19, 22, 46, 84249)

from datetime import timedelta
now + timedelta(12) # 默认加天数

datetime.datetime(2021, 6, 13, 19, 22, 46, 84249)

timedelta?

timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, weeks=0)

1.4 字符串和datetime的相互转换

# 格式化日期
sixone = '2021-6-01 20:00:00'

datetime.strptime(sixone, '%Y-%m-%d %H:%M:%S')

datetime.datetime(2021, 6, 1, 20, 0)

pd.to_datetime(sixone)

Timestamp('2021-06-01 20:00:00')

# 获取指定日期属于周几
datetime.strptime(sixone, '%Y-%m-%d %H:%M:%S').strftime('%w')

'2'

# 获取指定日期属于当年的第几周
datetime.strptime(sixone, '%Y-%m-%d %H:%M:%S').strftime('%W')

'22'

# 获取指定日期属于当年的第几周
int(datetime.strptime(sixone, '%Y-%m-%d %H:%M:%S').strftime('%W'))

# 获取指定时间属于星期几
datetime.strptime(sixone, '%Y-%m-%d %H:%M:%S').strftime('%a')

'Tue'

datetime.strptime(sixone, '%Y-%m-%d %H:%M:%S').strftime('%A')

'Tuesday'

# 获取指定时间属于月份
datetime.strptime(sixone, '%Y-%m-%d %H:%M:%S').strftime('%b')

'Jun'

datetime.strptime(sixone, '%Y-%m-%d %H:%M:%S').strftime('%B')

'June'

1.5 `NaT` (Not a Time) —— pandas中时间戳数据的NA值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EyBpNgsg-1622569880152)(./images/NaT.jpg)]

rootdir = 'D:/Github/BigDataAnalysis/01 Data Analysis and Pre-processing/Dataset/'
filenames = ['Auxiliary_Info.xlsx']
au_info = pd.read_excel(rootdir + filenames[0])
au_info.head()

	Semester Start Week	Holiday Date	Attendance period Start	Attendance period End	Attendance period Description	Make up lessons ID	Original lessons Date	Make up lessons Date	Make up lessons Week	Make up lessons Weekday	Make up lessons Schedule	Make up lessons Description
0	2021-03-01	2021-05-01	07:00:00	08:30:00	上午第1节课前一小时内考勤均认为正常考勤，可以按照自己的逻辑修改。	ML2020001	2021-03-15	2021-05-28	13.0	Fri	1--2	补课日期，补第几周的课，补周几的课，补第几节课
1	NaT	2021-05-02	10:05:00	10:25:00	上午1-2节下课到第3节课上课之间的时间被认为正常考勤。	DL2020001	2021-03-22	2021-05-24	13.0	Mon	3--4	NaN
2	NaT	2021-05-03	13:00:00	14:00:00	下午第1节课前一小时内考勤均认为正常考勤，可以按照自己的逻辑修改。	CV2020001	2021-05-24	2021-05-28	13.0	Fri	5--6	NaN
3	NaT	2021-05-04	15:35:00	15:55:00	下午1-2节下课到第3节课上课之间的时间被认为正常考勤。	NaN	NaT	NaT	NaN	NaN	NaN	NaN
4	NaT	2021-05-05	17:30:00	18:00:00	下午3-4节下课到晚上第1节课上课之间的时间被认为正常考勤。	NaN	NaT	NaT	NaN	NaN	NaN	NaN

1.6 Pandas与datetime的关系

pandas中最基本的时间序列类型就是以时间戳（通常以Python字符串或datetime对象表示）为索引的Series。这些datetime对象被放在一个DatetimeIndex中。

ts = [1, 2, 3, 4, 5, 6]
ts[::2]

[1, 3, 5]

ts[1::2]

[2, 4, 6]

ts[3::2]

[4, 6]

# Random values in a given shape.
# rand(d0, d1, ..., dn)
np.random.rand?

np.random.rand(6, 1)

array([[0.53064704],
       [0.54018723],
       [0.43826432],
       [0.98806201],
       [0.18967486],
       [0.96387848]])

# Return a sample (or samples) from the "standard normal" distribution.
# randn(d0, d1, ..., dn)
np.random.randn?

np.random.randn(6)

array([-0.60655019,  2.11467588, -1.15069137, -0.02745732, -0.62381701,
        0.20075619])

dates = [datetime(2021, 6, 1), 
         datetime(2021, 6, 2), 
         datetime(2021, 6, 3), 
         datetime(2021, 6, 10), 
         datetime(2021, 6, 18), 
         datetime(2021, 6, 20), 
        ]

mock_value = np.random.randn(len(dates))
# 显式构造 pandas.Series 对象
# 当创建具有DatetimeIndex的Series时，pandas会自动推断为时间序列。
ts = pd.Series(mock_value, index=dates)
ts

2021-06-01    0.784748
2021-06-02    0.452610
2021-06-03    1.949499
2021-06-10   -1.436581
2021-06-18    0.414006
2021-06-20   -0.503487
dtype: float64

type(ts)

pandas.core.series.Series

isinstance(ts, pd.core.series.Series)

True

# 以纳秒形式存储
ts.index.dtype

dtype('

 
  # 索引切片
ts.index[0]
 
  Timestamp('2021-06-01 00:00:00')
 
  list(ts.index)
 
  [Timestamp('2021-06-01 00:00:00'),
 Timestamp('2021-06-02 00:00:00'),
 Timestamp('2021-06-03 00:00:00'),
 Timestamp('2021-06-10 00:00:00'),
 Timestamp('2021-06-18 00:00:00'),
 Timestamp('2021-06-20 00:00:00')]
 
  1.7 索引、选取、子集构造 
  TimeSeries是Series的一个子类，所以在索引以及数据选取方面，它们的行为是一样的。 
  1) 索引 
  stamp = ts.index[2]
stamp
 
  Timestamp('2021-06-03 00:00:00')
 
  # 传入时间戳
ts[stamp]
 
  1.9494987022879615
 
  # 传入一个可以被解释为日期的字符串
ts['6/1/2021']
 
  0.7847481402803347
 
  2) 切片 
   只对Series有效！  
  # 日期切片
ts[datetime(2021, 6, 3):]
 
  2021-06-03    1.949499
2021-06-10   -1.436581
2021-06-18    0.414006
2021-06-20   -0.503487
dtype: float64
 
  # 范围查询
ts['6/1/2021':'6/3/2021']
 
  2021-06-01    0.784748
2021-06-02    0.452610
2021-06-03    1.949499
dtype: float64
 
  3) 子集构造 
  periods = 100
longer_ts = pd.Series(np.random.randn(periods), 
                      index=pd.date_range('6/1/2021', periods=periods))
longer_ts
 
  2021-06-01    0.542161
2021-06-02   -1.620210
2021-06-03   -0.504591
2021-06-04    0.829834
2021-06-05    0.615478
                ...   
2021-09-04    1.015031
2021-09-05    0.526046
2021-09-06    1.559286
2021-09-07   -0.352586
2021-09-08    0.135214
Freq: D, Length: 100, dtype: float64
 
  %page longer_ts
 
  # before日期之前的丢弃
# after日期之后的丢弃
longer_ts.truncate(before='6/10/2021',
                   after='6/18/2021')
 
  2021-06-10   -1.297002
2021-06-11    1.586373
2021-06-12    0.048455
2021-06-13   -0.586656
2021-06-14    0.240073
2021-06-15   -1.077827
2021-06-16   -0.244207
2021-06-17    1.077276
2021-06-18   -0.024610
Freq: D, dtype: float64
 
  longer_ts.truncate?
 
  longer_ts.truncate(
    before=None,
    after=None,
    axis=None,
    copy: 'bool_t' = True,
) -> 'FrameOrSeries'
 
  4) pd.date_range() 
  注意 freq 参数设置！ 
  pd.date_range?
 
  pd.date_range(
    start=None,
    end=None,
    periods=None,
    freq=None,
    tz=None,
    normalize=False,
    name=None,
    closed=None,
    **kwargs,
) -> pandas.core.indexes.datetimes.DatetimeIndex
 
  dates = pd.date_range('6/18/2021', 
                      periods=100, 
                      freq='W-WED')
dates
 
  DatetimeIndex(['2021-06-23', '2021-06-30', '2021-07-07', '2021-07-14',
               '2021-07-21', '2021-07-28', '2021-08-04', '2021-08-11',
               '2021-08-18', '2021-08-25', '2021-09-01', '2021-09-08',
               '2021-09-15', '2021-09-22', '2021-09-29', '2021-10-06',
               '2021-10-13', '2021-10-20', '2021-10-27', '2021-11-03',
               '2021-11-10', '2021-11-17', '2021-11-24', '2021-12-01',
               '2021-12-08', '2021-12-15', '2021-12-22', '2021-12-29',
               '2022-01-05', '2022-01-12', '2022-01-19', '2022-01-26',
               '2022-02-02', '2022-02-09', '2022-02-16', '2022-02-23',
               '2022-03-02', '2022-03-09', '2022-03-16', '2022-03-23',
               '2022-03-30', '2022-04-06', '2022-04-13', '2022-04-20',
               '2022-04-27', '2022-05-04', '2022-05-11', '2022-05-18',
               '2022-05-25', '2022-06-01', '2022-06-08', '2022-06-15',
               '2022-06-22', '2022-06-29', '2022-07-06', '2022-07-13',
               '2022-07-20', '2022-07-27', '2022-08-03', '2022-08-10',
               '2022-08-17', '2022-08-24', '2022-08-31', '2022-09-07',
               '2022-09-14', '2022-09-21', '2022-09-28', '2022-10-05',
               '2022-10-12', '2022-10-19', '2022-10-26', '2022-11-02',
               '2022-11-09', '2022-11-16', '2022-11-23', '2022-11-30',
               '2022-12-07', '2022-12-14', '2022-12-21', '2022-12-28',
               '2023-01-04', '2023-01-11', '2023-01-18', '2023-01-25',
               '2023-02-01', '2023-02-08', '2023-02-15', '2023-02-22',
               '2023-03-01', '2023-03-08', '2023-03-15', '2023-03-22',
               '2023-03-29', '2023-04-05', '2023-04-12', '2023-04-19',
               '2023-04-26', '2023-05-03', '2023-05-10', '2023-05-17'],
              dtype='datetime64[ns]', freq='W-WED')
 
  5) DataFrame.iloc 
  # 已经移除了
pd.DataFrame.ix?
 
  Object `pd.DataFrame.ix` not found.
 
  pd.__version__
 
  '1.2.4'
 
  pd.DataFrame.iloc?
 
  long_df = pd.DataFrame(np.random.randn(100, 4), 
                       index=dates, 
                       columns=['Colorado', 'Texas', 'New York', 'Califonia'])
long_df
 
   
   
   
    
     
      
     Colorado 
     Texas 
     New York 
     Califonia 
     
    
    
     
     2021-06-23 
     1.104667 
     -2.493659 
     -1.154782 
     0.372761 
     
     
     2021-06-30 
     0.445929 
     0.726355 
     0.925137 
     -1.875483 
     
     
     2021-07-07 
     1.937304 
     0.243263 
     0.711466 
     1.126121 
     
     
     2021-07-14 
     -0.530885 
     -0.915292 
     0.193696 
     -0.610519 
     
     
     2021-07-21 
     1.293584 
     0.333919 
     1.038634 
     -1.137250 
     
     
     ... 
     ... 
     ... 
     ... 
     ... 
     
     
     2023-04-19 
     -0.452375 
     -0.297580 
     -1.209614 
     -0.756588 
     
     
     2023-04-26 
     -1.299277 
     -0.485290 
     -0.808197 
     -1.988203 
     
     
     2023-05-03 
     -0.977997 
     0.230503 
     -0.663490 
     0.486109 
     
     
     2023-05-10 
     0.838546 
     -1.123142 
     -0.766710 
     0.147016 
     
     
     2023-05-17 
     0.170875 
     0.775460 
     1.344665 
     -0.143871 
     
    
   
  100 rows × 4 columns 
  long_df.index
 
  DatetimeIndex(['2021-06-23', '2021-06-30', '2021-07-07', '2021-07-14',
               '2021-07-21', '2021-07-28', '2021-08-04', '2021-08-11',
               '2021-08-18', '2021-08-25', '2021-09-01', '2021-09-08',
               '2021-09-15', '2021-09-22', '2021-09-29', '2021-10-06',
               '2021-10-13', '2021-10-20', '2021-10-27', '2021-11-03',
               '2021-11-10', '2021-11-17', '2021-11-24', '2021-12-01',
               '2021-12-08', '2021-12-15', '2021-12-22', '2021-12-29',
               '2022-01-05', '2022-01-12', '2022-01-19', '2022-01-26',
               '2022-02-02', '2022-02-09', '2022-02-16', '2022-02-23',
               '2022-03-02', '2022-03-09', '2022-03-16', '2022-03-23',
               '2022-03-30', '2022-04-06', '2022-04-13', '2022-04-20',
               '2022-04-27', '2022-05-04', '2022-05-11', '2022-05-18',
               '2022-05-25', '2022-06-01', '2022-06-08', '2022-06-15',
               '2022-06-22', '2022-06-29', '2022-07-06', '2022-07-13',
               '2022-07-20', '2022-07-27', '2022-08-03', '2022-08-10',
               '2022-08-17', '2022-08-24', '2022-08-31', '2022-09-07',
               '2022-09-14', '2022-09-21', '2022-09-28', '2022-10-05',
               '2022-10-12', '2022-10-19', '2022-10-26', '2022-11-02',
               '2022-11-09', '2022-11-16', '2022-11-23', '2022-11-30',
               '2022-12-07', '2022-12-14', '2022-12-21', '2022-12-28',
               '2023-01-04', '2023-01-11', '2023-01-18', '2023-01-25',
               '2023-02-01', '2023-02-08', '2023-02-15', '2023-02-22',
               '2023-03-01', '2023-03-08', '2023-03-15', '2023-03-22',
               '2023-03-29', '2023-04-05', '2023-04-12', '2023-04-19',
               '2023-04-26', '2023-05-03', '2023-05-10', '2023-05-17'],
              dtype='datetime64[ns]', freq='W-WED')
 
  1.8 带有重复索引的时间序列 
  在某些应用场景中，可能会存在多个观测数据落在同一个时间点上的情况。 
  dates = pd.DatetimeIndex(['2021-06-23', 
                          '2021-06-30', 
                          '2021-06-30', 
                          '2021-06-30', 
                          '2021-07-07', 
                          '2021-07-14',
                          '2021-07-14',
                          '2021-07-14',
                          '2021-07-21'])
dates
 
  DatetimeIndex(['2021-06-23', '2021-06-30', '2021-06-30', '2021-06-30',
               '2021-07-07', '2021-07-14', '2021-07-14', '2021-07-14',
               '2021-07-21'],
              dtype='datetime64[ns]', freq=None)
 
  dup_ts = pd.Series(np.arange(len(dates)), index=dates)
dup_ts
 
  2021-06-23    0
2021-06-30    1
2021-06-30    2
2021-06-30    3
2021-07-07    4
2021-07-14    5
2021-07-14    6
2021-07-14    7
2021-07-21    8
dtype: int32
 
  # 查看索引是否重复
dup_ts.index.is_unique
 
  False
 
  dup_ts['2021-06-30']
 
  2021-06-30    1
2021-06-30    2
2021-06-30    3
dtype: int32
 
  对非唯一索引进行聚合 groupby 
  grouped = dup_ts.groupby(level=0)
grouped
 
  
 
  dup_ts.groupby?
 
  dup_ts.groupby(
    by=None,
    axis=0,
    level=None,
    as_index: bool = True,
    sort: bool = True,
    group_keys: bool = True,
    squeeze: bool = <object object at 0x0000021A19AE6530>,
    observed: bool = False,
    dropna: bool = True,
) -> 'SeriesGroupBy'
 
  grouped.count()
 
  2021-06-23    1
2021-06-30    3
2021-07-07    1
2021-07-14    3
2021-07-21    1
dtype: int64
 
  grouped.mean()
 
  2021-06-23    0
2021-06-30    2
2021-07-07    4
2021-07-14    6
2021-07-21    8
dtype: int32
 
  2. 日期的范围、频率及移动 
  Pandas具有一套标准时间序列频率以及用于重采样、频率推断、生成固定频率日期范围的工具。可以使用 resample将时间序列转换为具有固定频率的时间序列： 
  2.1 生成日期范围 pd.date_range() 
  # 默认按照天计算
index = pd.date_range('6/1/2021', '8/1/2021')
index
 
  DatetimeIndex(['2021-06-01', '2021-06-02', '2021-06-03', '2021-06-04',
               '2021-06-05', '2021-06-06', '2021-06-07', '2021-06-08',
               '2021-06-09', '2021-06-10', '2021-06-11', '2021-06-12',
               '2021-06-13', '2021-06-14', '2021-06-15', '2021-06-16',
               '2021-06-17', '2021-06-18', '2021-06-19', '2021-06-20',
               '2021-06-21', '2021-06-22', '2021-06-23', '2021-06-24',
               '2021-06-25', '2021-06-26', '2021-06-27', '2021-06-28',
               '2021-06-29', '2021-06-30', '2021-07-01', '2021-07-02',
               '2021-07-03', '2021-07-04', '2021-07-05', '2021-07-06',
               '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-10',
               '2021-07-11', '2021-07-12', '2021-07-13', '2021-07-14',
               '2021-07-15', '2021-07-16', '2021-07-17', '2021-07-18',
               '2021-07-19', '2021-07-20', '2021-07-21', '2021-07-22',
               '2021-07-23', '2021-07-24', '2021-07-25', '2021-07-26',
               '2021-07-27', '2021-07-28', '2021-07-29', '2021-07-30',
               '2021-07-31', '2021-08-01'],
              dtype='datetime64[ns]', freq='D')
 
  pd.date_range?
 
  Signature:
pd.date_range(
    start=None,
    end=None,
    periods=None,
    freq=None,
    tz=None,
    normalize=False,
    name=None,
    closed=None,
    **kwargs,
) -> pandas.core.indexes.datetimes.DatetimeIndex
Docstring:
Return a fixed frequency DatetimeIndex.
 
  使用 freq 参数 
   
   BM (business end of month): 表示每月最后一个工作日 
   
  # 默认按照天计算
index = pd.date_range('1/1/2021', '1/1/2022', 
                      freq='BM')
index
 
  DatetimeIndex(['2021-01-29', '2021-02-26', '2021-03-31', '2021-04-30',
               '2021-05-31', '2021-06-30', '2021-07-30', '2021-08-31',
               '2021-09-30', '2021-10-29', '2021-11-30', '2021-12-31'],
              dtype='datetime64[ns]', freq='BM')
 
  使用 peroids 参数 
  index = pd.date_range('1/1/2021', '1/1/2022', 
                      periods=24)
index, len(index)
 
  (DatetimeIndex([          '2021-01-01 00:00:00',
                '2021-01-16 20:52:10.434782608',
                '2021-02-01 17:44:20.869565217',
                '2021-02-17 14:36:31.304347826',
                '2021-03-05 11:28:41.739130435',
                '2021-03-21 08:20:52.173913044',
                '2021-04-06 05:13:02.608695652',
                '2021-04-22 02:05:13.043478262',
                '2021-05-07 22:57:23.478260870',
                '2021-05-23 19:49:33.913043478',
                '2021-06-08 16:41:44.347826088',
                '2021-06-24 13:33:54.782608696',
                '2021-07-10 10:26:05.217391304',
                '2021-07-26 07:18:15.652173914',
                '2021-08-11 04:10:26.086956524',
                '2021-08-27 01:02:36.521739132',
                '2021-09-11 21:54:46.956521740',
                '2021-09-27 18:46:57.391304348',
                '2021-10-13 15:39:07.826086956',
                '2021-10-29 12:31:18.260869568',
                '2021-11-14 09:23:28.695652176',
                '2021-11-30 06:15:39.130434784',
                '2021-12-16 03:07:49.565217392',
                          '2022-01-01 00:00:00'],
               dtype='datetime64[ns]', freq=None),
 24)
 
  使用 normalize 参数 
  将时间戳规范化到午夜0点 
  index = pd.date_range('6/1/2021 11:11:11', periods=11, normalize=True)
index, len(index)
 
  (DatetimeIndex(['2021-06-01', '2021-06-02', '2021-06-03', '2021-06-04',
                '2021-06-05', '2021-06-06', '2021-06-07', '2021-06-08',
                '2021-06-09', '2021-06-10', '2021-06-11'],
               dtype='datetime64[ns]', freq='D'),
 11)
 
  index[0]
 
  Timestamp('2021-06-01 00:00:00', freq='D')
 
  2.2 频率和日期偏移量 
   
   M：月 
   H：小时 
   
  pd.date_range('6/1/2021', '12/11/2021', freq='4h')
 
  DatetimeIndex(['2021-06-01 00:00:00', '2021-06-01 04:00:00',
               '2021-06-01 08:00:00', '2021-06-01 12:00:00',
               '2021-06-01 16:00:00', '2021-06-01 20:00:00',
               '2021-06-02 00:00:00', '2021-06-02 04:00:00',
               '2021-06-02 08:00:00', '2021-06-02 12:00:00',
               ...
               '2021-12-09 12:00:00', '2021-12-09 16:00:00',
               '2021-12-09 20:00:00', '2021-12-10 00:00:00',
               '2021-12-10 04:00:00', '2021-12-10 08:00:00',
               '2021-12-10 12:00:00', '2021-12-10 16:00:00',
               '2021-12-10 20:00:00', '2021-12-11 00:00:00'],
              dtype='datetime64[ns]', length=1159, freq='4H')
 
  pd.date_range('6/1/2021', periods=10, freq='H')
 
  DatetimeIndex(['2021-06-01 00:00:00', '2021-06-01 01:00:00',
               '2021-06-01 02:00:00', '2021-06-01 03:00:00',
               '2021-06-01 04:00:00', '2021-06-01 05:00:00',
               '2021-06-01 06:00:00', '2021-06-01 07:00:00',
               '2021-06-01 08:00:00', '2021-06-01 09:00:00'],
              dtype='datetime64[ns]', freq='H')
 
  pd.date_range('6/1/2021', periods=10, freq='M')
 
  DatetimeIndex(['2021-06-30', '2021-07-31', '2021-08-31', '2021-09-30',
               '2021-10-31', '2021-11-30', '2021-12-31', '2022-01-31',
               '2022-02-28', '2022-03-31'],
              dtype='datetime64[ns]', freq='M')
 
  传入频率字符串 
  pd.date_range('6/1/2021', periods=10, freq='4h30min')
 
  DatetimeIndex(['2021-06-01 00:00:00', '2021-06-01 04:30:00',
               '2021-06-01 09:00:00', '2021-06-01 13:30:00',
               '2021-06-01 18:00:00', '2021-06-01 22:30:00',
               '2021-06-02 03:00:00', '2021-06-02 07:30:00',
               '2021-06-02 12:00:00', '2021-06-02 16:30:00'],
              dtype='datetime64[ns]', freq='270T')
 
  时间序列基础频率参数 freq 表 
   
    
     
     别名 
     偏移量类型 
     说明 
     
    
    
     
     D 
     Day 
     每日历日 
     
     
     B 
     BusinessDay 
     每工作日 
     
     
     H 
     Hour 
     每小时 
     
     
     T/min 
     Minute 
     每分 
     
     
     S 
     Second 
     每秒 
     
     
     L/ms 
     Milli 
     每毫秒 
     
     
     U 
     Micro 
     每微秒 
     
     
     M 
     MonthEnd 
     每月最后一个日历日 
     
     
     BM 
     BussinessMonthEnd 
     每月最后一个工作日 
     
     
     MS 
     MonthBegin 
     每月第一个日历日 
     
     
     BMS 
     BussinessMonthBegin 
     每月第一个工作日 
     
     
     W-MON\W-TUE… 
     Week 
     从指定的星期几（MON\TUE\WED\THU\FRI\SAT\SUN）开始算起，每周 
     
     
     WOM-1MON\WOM-2MON… 
     WeekOfMonth 
     产生每月第一、第二、第三或第四周的星期几。例如，WOM-3FRI表示每月第三个星期五 
     
     
     Q-JAN\Q-FEB… 
     QuarterEnd 
     对于以指定月份（JAN\FEB\MAR\APR\MAY\JUN\JUL\AUG\SEP\OCT\NOV\DEC）结束的年度，每季度最后一个月的最后一个日历日 
     
     
     BQ-JAN\BQ-FEB… 
     BussinessQuarterEnd 
     对于以指定月份结束的年度，每季度最后一个月的最后一个工作日 
     
     
     QS-JAN\QS-FEB… 
     QuarterBegin 
     对于以指定月份结束的年度，每季度最后一个月的第一个日历日 
     
     
     BQS-JAN\BQS-FEB… 
     BussinessQuarterBegin 
     对于以指定月份结束的年度，每季度最后一个月的第一个工作日 
     
     
     A-JAN\A-FEB… 
     YearEnd 
     每年指定月份（JAN\FEB\MAR\APR\MAY\JUN\JUL\AUG\SEP\OCT\NOV\DEC）的最后一个日历日 
     
     
     BA-JAN\BA-FEB… 
     BussinessYearEnd 
     每年指定月份的最后一个工作日 
     
     
     AS-JAN\AS-FEB… 
     YearBegin 
     每年指定月份的第一个日历日 
     
     
     BA-JAN\BA-FEB… 
     BussinessYearBegin 
     每年指定月份的第一个工作日 
     
    
   
  # 示例
# 'WOM-3FRI'表示每月第三个星期五
rng = pd.date_range('6/1/2021','12/11/2021', freq='WOM-3FRI')
rng
 
  DatetimeIndex(['2021-06-18', '2021-07-16', '2021-08-20', '2021-09-17',
               '2021-10-15', '2021-11-19'],
              dtype='datetime64[ns]', freq='WOM-3FRI')
 
  rng = pd.date_range('6/1/2021','1/1/2022', freq='BQ-DEC')
rng
 
  DatetimeIndex(['2021-06-30', '2021-09-30', '2021-12-31'], dtype='datetime64[ns]', freq='BQ-DEC')
 
  pd.date_range?
 
  2.3 移动（超前和滞后）数据 
  移动（shifting）指的是沿着时间轴将数据前移和后移。Series和DataFrame都有一个 .shitf() 方法用于执行单纯的前移或后移操作，保持索引不变。 
  periods = 10
ts = pd.Series(np.random.randn(periods), 
               index=pd.date_range('6/1/2021', periods=periods, freq='M'))
ts
 
  2021-06-30   -0.841412
2021-07-31   -0.617966
2021-08-31   -0.944509
2021-09-30    0.630180
2021-10-31   -0.203361
2021-11-30    0.913479
2021-12-31    0.082896
2022-01-31   -1.603623
2022-02-28    1.464227
2022-03-31   -0.350378
Freq: M, dtype: float64
 
  ts.shift?
 
  ts.shift(periods=1, freq=None, axis=0, fill_value=None) -> 'Series'
 
  ts.shift(1)
 
  2021-06-30         NaN
2021-07-31   -0.841412
2021-08-31   -0.617966
2021-09-30   -0.944509
2021-10-31    0.630180
2021-11-30   -0.203361
2021-12-31    0.913479
2022-01-31    0.082896
2022-02-28   -1.603623
2022-03-31    1.464227
Freq: M, dtype: float64
 
  ts.shift(1, freq='M')
 
  2021-07-31   -0.841412
2021-08-31   -0.617966
2021-09-30   -0.944509
2021-10-31    0.630180
2021-11-30   -0.203361
2021-12-31    0.913479
2022-01-31    0.082896
2022-02-28   -1.603623
2022-03-31    1.464227
2022-04-30   -0.350378
Freq: M, dtype: float64
 
  ts
 
  2021-06-30   -0.841412
2021-07-31   -0.617966
2021-08-31   -0.944509
2021-09-30    0.630180
2021-10-31   -0.203361
2021-11-30    0.913479
2021-12-31    0.082896
2022-01-31   -1.603623
2022-02-28    1.464227
2022-03-31   -0.350378
Freq: M, dtype: float64
 
  计算一个或多个时间序列中的百分比变化 
  ts / ts.shift(1) - 1
 
  2021-06-30          NaN
2021-07-31    -0.265561
2021-08-31     0.528417
2021-09-30    -1.667204
2021-10-31    -1.322704
2021-11-30    -5.491898
2021-12-31    -0.909253
2022-01-31   -20.345109
2022-02-28    -1.913075
2022-03-31    -1.239292
Freq: M, dtype: float64
 
  通过偏移量对日期进行位移 
  from pandas.tseries.offsets import Day, MonthEnd
 
  now = datetime(2021, 6, 1)
now
 
  datetime.datetime(2021, 6, 1, 0, 0)
 
  Day?
 
  now + 3 * Day()
 
  Timestamp('2021-06-04 00:00:00')
 
  MonthEnd?
 
  offset = MonthEnd()
offset
 
  
 
  offset.rollforward(now)
 
  Timestamp('2021-06-30 00:00:00')
 
  offset.rollback(now)
 
  Timestamp('2021-05-31 00:00:00')
 
  3. 时期及其算术运算 
  p = pd.Period(2007, freq='A-DEC')
p
 
  Period('2007', 'A-DEC')
 
  pd.Period(2021, freq='A-DEC') - p
 
  <14 * YearEnds: month=12>
 
  rng = pd.period_range('6/1/2021', '5/31/2022', freq='M')
rng, len(rng)
 
  (PeriodIndex(['2021-06', '2021-07', '2021-08', '2021-09', '2021-10', '2021-11',
              '2021-12', '2022-01', '2022-02', '2022-03', '2022-04', '2022-05'],
             dtype='period[M]', freq='M'),
 12)
 
  PeriodIndex保存了一组Period，它可以在任何pandas树结构中被用作轴索引： 
  pd.Series(np.random.randn(len(rng)), index=rng)
 
  2021-06   -0.028997
2021-07    2.037657
2021-08   -0.377063
2021-09   -0.039834
2021-10   -1.945070
2021-11   -1.081119
2021-12    0.935484
2022-01    0.903672
2022-02    0.458917
2022-03    1.330505
2022-04    2.759339
2022-05    1.038594
Freq: M, dtype: float64
 
  values = ['2021Q3', '2021Q2', '2021Q1']
index = pd.PeriodIndex(values, freq = 'Q-DEC')
index
 
  PeriodIndex(['2021Q3', '2021Q2', '2021Q1'], dtype='period[Q-DEC]', freq='Q-DEC')
 
  3.1 时期的频率转换 
  Period 和 PeriodIndex 对象都可以通过其asfreq方法被转换成别的频率。 
  p = pd.Period(2007, freq='A-DEC')
p.asfreq('M', how='start')
 
  Period('2007-01', 'M')
 
  p.asfreq?
 
  
Docstring:
Convert Period to desired frequency, at the start or end of the interval.

Parameters
----------
freq : str
    The desired frequency.
how : {
     'E', 'S', 'end', 'start'}, default 'end'
    Start or end of the timespan.

Returns
-------
resampled : Period
Type:      builtin_function_or_method
---

## 3.2 按季度计算的时间频率 


```python
# 10,11,12月为第四季度
p = pd.Period('2021Q4', freq='Q-DEC')
p
 
  Period('2021Q4', 'Q-DEC')
 
  4. 重采样即频率转换 
  重采样（resampling）是指将时间序列从一个频率转换到另一个频率的处理过程。 
   
   升采样（upsampling）：低频到高频 
   降采样（downsampling）：高频到低频 
   
  periods = 10
ts = pd.Series(np.random.randn(periods), 
               index=pd.date_range('6/1/2021', periods=periods, freq='M'))
ts
 
  2021-06-30    0.182690
2021-07-31   -0.592748
2021-08-31   -0.587611
2021-09-30    0.005664
2021-10-31    0.806200
2021-11-30    0.732487
2021-12-31   -1.499358
2022-01-31    1.078263
2022-02-28   -0.106380
2022-03-31   -0.649591
Freq: M, dtype: float64
 
  ts.resample?
 
  Signature:
ts.resample(
    rule,
    axis=0,
    closed: 'Optional[str]' = None,
    label: 'Optional[str]' = None,
    convention: 'str' = 'start',
    kind: 'Optional[str]' = None,
    loffset=None,
    base: 'Optional[int]' = None,
    on=None,
    level=None,
    origin: 'Union[str, TimestampConvertibleTypes]' = 'start_day',
    offset: 'Optional[TimedeltaConvertibleTypes]' = None,
) -> 'Resampler'
Docstring:
Resample time-series data.

 
  rng = pd.date_range('6/1/2021', periods=100, freq='D')

ts = pd.Series(data=np.random.randn(len(rng)), index=rng)
ts
 
  2021-06-01   -1.140991
2021-06-02   -0.744261
2021-06-03   -0.177664
2021-06-04    1.711626
2021-06-05    1.293986
                ...   
2021-09-04    0.764660
2021-09-05    0.046588
2021-09-06   -0.229593
2021-09-07   -2.401894
2021-09-08   -0.475323
Freq: D, Length: 100, dtype: float64
 
  ts.resample('M', kind='period').mean()
 
  2021-06    0.122118
2021-07   -0.203875
2021-08    0.379899
2021-09   -0.436096
Freq: M, dtype: float64
 
  4.1 降采样 
  rng = pd.date_range('6/1/2021', periods=12, freq='T')

ts = pd.Series(data=np.arange(len(rng)), index=rng)
ts
 
  2021-06-01 00:00:00     0
2021-06-01 00:01:00     1
2021-06-01 00:02:00     2
2021-06-01 00:03:00     3
2021-06-01 00:04:00     4
2021-06-01 00:05:00     5
2021-06-01 00:06:00     6
2021-06-01 00:07:00     7
2021-06-01 00:08:00     8
2021-06-01 00:09:00     9
2021-06-01 00:10:00    10
2021-06-01 00:11:00    11
Freq: T, dtype: int32
 
  ts.resample('5min').sum()
 
  2021-06-01 00:00:00    10
2021-06-01 00:05:00    35
2021-06-01 00:10:00    21
Freq: 5T, dtype: int32
 
  closed 参数 
  closed=‘left’：会让区间以左边界闭合 
  ts.resample('5min', closed='left').sum()
 
  2021-06-01 00:00:00    10
2021-06-01 00:05:00    35
2021-06-01 00:10:00    21
Freq: 5T, dtype: int32
 
  ts.resample('5min', closed='right').sum()
 
  2021-05-31 23:55:00     0
2021-06-01 00:00:00    15
2021-06-01 00:05:00    40
2021-06-01 00:10:00    11
Freq: 5T, dtype: int32
 
  label 参数 
  label=‘left’：可用面元的左边界对其进行标记 
  ts.resample('5min', closed='left', label='left').sum()
 
  2021-06-01 00:00:00    10
2021-06-01 00:05:00    35
2021-06-01 00:10:00    21
Freq: 5T, dtype: int32
 
  loffset 参数 
  ts.resample('5min', loffset='-5s').sum()
 
  :1: FutureWarning: 'loffset' in .resample() and in Grouper() is deprecated.

>>> df.resample(freq="3s", loffset="8H")

becomes:

>>> from pandas.tseries.frequencies import to_offset
>>> df = df.resample(freq="3s").mean()
>>> df.index = df.index.to_timestamp() + to_offset("8H")

  ts.resample('5min', loffset='-5s').sum()

2021-05-31 23:59:55    10
2021-06-01 00:04:55    35
2021-06-01 00:09:55    21
Freq: 5T, dtype: int32
 
  4.2 OHLC 重采样 
  金融领域中的采样方式，即开盘值，最大值，最小值，收盘值。 
  ts.resample('5min').ohlc()
 
   
   
   
    
     
      
     open 
     high 
     low 
     close 
     
    
    
     
     2021-06-01 00:00:00 
     0 
     4 
     0 
     4 
     
     
     2021-06-01 00:05:00 
     5 
     9 
     5 
     9 
     
     
     2021-06-01 00:10:00 
     10 
     11 
     10 
     11 
     
    
   
  4.3 .groupby() 重采样 
  rng = pd.date_range('6/1/2021', periods=100, freq='D')
ts = pd.Series(data=np.arange(len(rng)), index=rng)

ts
 
  2021-06-01     0
2021-06-02     1
2021-06-03     2
2021-06-04     3
2021-06-05     4
              ..
2021-09-04    95
2021-09-05    96
2021-09-06    97
2021-09-07    98
2021-09-08    99
Freq: D, Length: 100, dtype: int32
 
  ts.groupby(lambda x: x.weekday).mean()
 
  0    51.5
1    49.0
2    50.0
3    47.5
4    48.5
5    49.5
6    50.5
dtype: float64
 
  ts.groupby(lambda x: x.month).mean()
 
  6    14.5
7    45.0
8    76.0
9    95.5
dtype: float64
 
  4.4 升采样和插值 
  dates = pd.date_range('6/18/2021', 
                      periods=2, 
                      freq='W-WED')

long_df = pd.DataFrame(np.random.randn(2, 4), 
                       index=dates, 
                       columns=['Colorado', 'Texas', 'New York', 'Califonia'])
long_df
 
   
   
   
    
     
      
     Colorado 
     Texas 
     New York 
     Califonia 
     
    
    
     
     2021-06-23 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-30 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
    
   
  long_df.resample('D').mean()
 
   
   
   
    
     
      
     Colorado 
     Texas 
     New York 
     Califonia 
     
    
    
     
     2021-06-23 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-24 
     NaN 
     NaN 
     NaN 
     NaN 
     
     
     2021-06-25 
     NaN 
     NaN 
     NaN 
     NaN 
     
     
     2021-06-26 
     NaN 
     NaN 
     NaN 
     NaN 
     
     
     2021-06-27 
     NaN 
     NaN 
     NaN 
     NaN 
     
     
     2021-06-28 
     NaN 
     NaN 
     NaN 
     NaN 
     
     
     2021-06-29 
     NaN 
     NaN 
     NaN 
     NaN 
     
     
     2021-06-30 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
    
   
  long_df.resample('D').ffill()
 
   
   
   
    
     
      
     Colorado 
     Texas 
     New York 
     Califonia 
     
    
    
     
     2021-06-23 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-24 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-25 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-26 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-27 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-28 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-29 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-30 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
    
   
  long_df.resample('D').ffill(limit=2)
 
   
   
   
    
     
      
     Colorado 
     Texas 
     New York 
     Califonia 
     
    
    
     
     2021-06-23 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-24 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-25 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-26 
     NaN 
     NaN 
     NaN 
     NaN 
     
     
     2021-06-27 
     NaN 
     NaN 
     NaN 
     NaN 
     
     
     2021-06-28 
     NaN 
     NaN 
     NaN 
     NaN 
     
     
     2021-06-29 
     NaN 
     NaN 
     NaN 
     NaN 
     
     
     2021-06-30 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
    
   
  long_df.ffill?
 
  long_df.resample('D').backfill()
 
   
   
   
    
     
      
     Colorado 
     Texas 
     New York 
     Califonia 
     
    
    
     
     2021-06-23 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-24 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-25 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-26 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-27 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-28 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-29 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-30 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
    
   
  long_df.resample('D').fillna(method='bfill')
 
   
   
   
    
     
      
     Colorado 
     Texas 
     New York 
     Califonia 
     
    
    
     
     2021-06-23 
     -2.462441 
     -1.250257 
     -0.537822 
     0.194408 
     
     
     2021-06-24 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-25 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-26 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-27 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-28 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-29 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963 
     
     
     2021-06-30 
     0.949421 
     -1.097458 
     -1.301532 
     -0.073963

	Colorado	Texas	New York	Califonia
2021-06-23	1.104667	-2.493659	-1.154782	0.372761
2021-06-30	0.445929	0.726355	0.925137	-1.875483
2021-07-07	1.937304	0.243263	0.711466	1.126121
2021-07-14	-0.530885	-0.915292	0.193696	-0.610519
2021-07-21	1.293584	0.333919	1.038634	-1.137250
...	...	...	...	...
2023-04-19	-0.452375	-0.297580	-1.209614	-0.756588
2023-04-26	-1.299277	-0.485290	-0.808197	-1.988203
2023-05-03	-0.977997	0.230503	-0.663490	0.486109
2023-05-10	0.838546	-1.123142	-0.766710	0.147016
2023-05-17	0.170875	0.775460	1.344665	-0.143871

别名	偏移量类型	说明
D	Day	每日历日
B	BusinessDay	每工作日
H	Hour	每小时
T/min	Minute	每分
S	Second	每秒
L/ms	Milli	每毫秒
U	Micro	每微秒
M	MonthEnd	每月最后一个日历日
BM	BussinessMonthEnd	每月最后一个工作日
MS	MonthBegin	每月第一个日历日
BMS	BussinessMonthBegin	每月第一个工作日
W-MON\W-TUE…	Week	从指定的星期几（MON\TUE\WED\THU\FRI\SAT\SUN）开始算起，每周
WOM-1MON\WOM-2MON…	WeekOfMonth	产生每月第一、第二、第三或第四周的星期几。例如，WOM-3FRI表示每月第三个星期五
Q-JAN\Q-FEB…	QuarterEnd	对于以指定月份（JAN\FEB\MAR\APR\MAY\JUN\JUL\AUG\SEP\OCT\NOV\DEC）结束的年度，每季度最后一个月的最后一个日历日
BQ-JAN\BQ-FEB…	BussinessQuarterEnd	对于以指定月份结束的年度，每季度最后一个月的最后一个工作日
QS-JAN\QS-FEB…	QuarterBegin	对于以指定月份结束的年度，每季度最后一个月的第一个日历日
BQS-JAN\BQS-FEB…	BussinessQuarterBegin	对于以指定月份结束的年度，每季度最后一个月的第一个工作日
A-JAN\A-FEB…	YearEnd	每年指定月份（JAN\FEB\MAR\APR\MAY\JUN\JUL\AUG\SEP\OCT\NOV\DEC）的最后一个日历日
BA-JAN\BA-FEB…	BussinessYearEnd	每年指定月份的最后一个工作日
AS-JAN\AS-FEB…	YearBegin	每年指定月份的第一个日历日
BA-JAN\BA-FEB…	BussinessYearBegin	每年指定月份的第一个工作日

	open	high	low	close
2021-06-01 00:00:00	0	4	0	4
2021-06-01 00:05:00	5	9	5	9
2021-06-01 00:10:00	10	11	10	11

	Colorado	Texas	New York	Califonia
2021-06-23	-2.462441	-1.250257	-0.537822	0.194408
2021-06-30	0.949421	-1.097458	-1.301532	-0.073963

	Colorado	Texas	New York	Califonia
2021-06-23	-2.462441	-1.250257	-0.537822	0.194408
2021-06-24	NaN	NaN	NaN	NaN
2021-06-25	NaN	NaN	NaN	NaN
2021-06-26	NaN	NaN	NaN	NaN
2021-06-27	NaN	NaN	NaN	NaN
2021-06-28	NaN	NaN	NaN	NaN
2021-06-29	NaN	NaN	NaN	NaN
2021-06-30	0.949421	-1.097458	-1.301532	-0.073963

	Colorado	Texas	New York	Califonia
2021-06-23	-2.462441	-1.250257	-0.537822	0.194408
2021-06-24	-2.462441	-1.250257	-0.537822	0.194408
2021-06-25	-2.462441	-1.250257	-0.537822	0.194408
2021-06-26	-2.462441	-1.250257	-0.537822	0.194408
2021-06-27	-2.462441	-1.250257	-0.537822	0.194408
2021-06-28	-2.462441	-1.250257	-0.537822	0.194408
2021-06-29	-2.462441	-1.250257	-0.537822	0.194408
2021-06-30	0.949421	-1.097458	-1.301532	-0.073963

	Colorado	Texas	New York	Califonia
2021-06-23	-2.462441	-1.250257	-0.537822	0.194408
2021-06-24	-2.462441	-1.250257	-0.537822	0.194408
2021-06-25	-2.462441	-1.250257	-0.537822	0.194408
2021-06-26	NaN	NaN	NaN	NaN
2021-06-27	NaN	NaN	NaN	NaN
2021-06-28	NaN	NaN	NaN	NaN
2021-06-29	NaN	NaN	NaN	NaN
2021-06-30	0.949421	-1.097458	-1.301532	-0.073963

	Colorado	Texas	New York	Califonia
2021-06-23	-2.462441	-1.250257	-0.537822	0.194408
2021-06-24	0.949421	-1.097458	-1.301532	-0.073963
2021-06-25	0.949421	-1.097458	-1.301532	-0.073963
2021-06-26	0.949421	-1.097458	-1.301532	-0.073963
2021-06-27	0.949421	-1.097458	-1.301532	-0.073963
2021-06-28	0.949421	-1.097458	-1.301532	-0.073963
2021-06-29	0.949421	-1.097458	-1.301532	-0.073963
2021-06-30	0.949421	-1.097458	-1.301532	-0.073963

	Colorado	Texas	New York	Califonia
2021-06-23	-2.462441	-1.250257	-0.537822	0.194408
2021-06-24	0.949421	-1.097458	-1.301532	-0.073963
2021-06-25	0.949421	-1.097458	-1.301532	-0.073963
2021-06-26	0.949421	-1.097458	-1.301532	-0.073963
2021-06-27	0.949421	-1.097458	-1.301532	-0.073963
2021-06-28	0.949421	-1.097458	-1.301532	-0.073963
2021-06-29	0.949421	-1.097458	-1.301532	-0.073963
2021-06-30	0.949421	-1.097458	-1.301532	-0.073963

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

Pandas时间序列数据处理和datetime模块详细教程

文章目录

重要的Python库

NumPy

Pandas

matplotlib

IPython

Scipy

Python 标准库

collections

functools

itertools

operator

1. IPython

1.1 IPython基本使用

1) 内省 introspection

2) %run 命令运行 .py 文件

3) %paste 执行剪切板的代码

4) %timeit 检测语句平均执行时间

5) 魔术命令之后添加 ? 查看帮助

1.2 常用的IPython魔术命令

1.3 使用命令历史

1) 搜索并重用命令历史

2) 记录输入和输出

1.4 与操作系统交互

1) shell命令和别名

2) 目录书签系统

3) 与系统相关的魔术命令

1. 日期和时间数据类型

1.1 Datetime Format

1.2 datetime.datetime

1.3 datetime.timedelta

1.4 字符串和datetime的相互转换

1.5 NaT (Not a Time) —— pandas中时间戳数据的NA值

1.6 Pandas与datetime的关系

1.7 索引、选取、子集构造

1) 索引

2) 切片

3) 子集构造

4) pd.date_range()

5) DataFrame.iloc

1.8 带有重复索引的时间序列

对非唯一索引进行聚合 groupby

2. 日期的范围、频率及移动

2.1 生成日期范围 pd.date_range()

使用 freq 参数

使用 peroids 参数

使用 normalize 参数

2.2 频率和日期偏移量

传入频率字符串

时间序列基础频率参数 freq 表

2.3 移动（超前和滞后）数据

计算一个或多个时间序列中的百分比变化

通过偏移量对日期进行位移

3. 时期及其算术运算

3.1 时期的频率转换

4. 重采样即频率转换

4.1 降采样

closed 参数

label 参数

loffset 参数

4.2 OHLC 重采样

4.3 .groupby() 重采样

4.4 升采样和插值

你可能感兴趣的:(时间序列建模（Time,Series）,大数据,python,pandas,时间序列分析)

2) `%run` 命令运行 `.py` 文件

3) `%paste` 执行剪切板的代码

4) `%timeit` 检测语句平均执行时间

5) 魔术命令之后添加 `?` 查看帮助

1.5 `NaT` (Not a Time) —— pandas中时间戳数据的NA值

2.1 生成日期范围 `pd.date_range()`

使用 `freq` 参数

使用 `peroids` 参数

使用 `normalize` 参数

时间序列基础频率参数 `freq` 表

`closed` 参数

`label` 参数

`loffset` 参数

4.3 `.groupby()` 重采样