improt numpy as np
array=np.array([[1,2,3],[2,3,4]],dtype=np.int/float)
array.npim: 几维的数组
array.shape: 几行几列;
array.size : 数组内几个元素
a=np.zeros/ones( (3,4) ) 生成一个全部是1的三行四列的矩阵
a=np.arange(10,20,2) 生成一个10到20,步长为2的数组
a=np.arrange(12).reshape((3,4)) 重新定义shape
a=linspace(1,10,5)生成一个从1到10的线段
a=np.array([10,20,30]); b=np.arrange(4); c=a+b ;print© 可以进行数学基本运算
print(b<3)将数组内数字进行判断,返回ture或flase
乘法:c=a*b(逐个相乘) c_dot=np.dot(a,b) ==c_dot=a.dot(b):矩阵相乘
生成随机的矩阵:
a=np.random.randint((2,4))
reshape(a, newshape[, order]) | 在不更改数据的情况下为数组赋予新的形状。 |
---|---|
ravel(a[, order]) | 返回一个连续的扁平数组。 |
ndarray.flat | 数组上的一维迭代器。 |
tile(A, reps) | 通过重复A代表次数来构造一个数组。 |
delete(arr, obj[, axis]) | 返回一个新的数组,该数组具有沿删除的轴的子数组。 |
unique(ar[, return_index, return_inverse, …]) | 查找数组的唯一元素 |
resize(a, new_shape) | 返回具有指定形状的新数组。 |
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KCm0cOpV-1681776922723)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1643893309568.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z18qJ2hR-1681776922725)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1643893602277.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XA9uqZVm-1681776922726)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1643893869571.png)]
a = np.array((0, 0, 0, 1, 2, 3, 0, 2, 1, 0))
>>> np.trim_zeros(a)
array([1, 2, 3, 0, 2, 1])
先生成一个随机的数组:
a=np.random.randint((2,4))
方法名 | 解释: |
---|---|
np.sum(a,axis=1) | 在第一行寻求总和(最大、最小) |
np.argmin(a) | 寻找最小最大的索引 |
np.mean(a) | 求平均值 |
np.cumsum(a) | 累加 |
np.concatenate((arr,arr),axis=0/1) | 数组拼接,按行或者按列 |
np.sin()/cos()/tan() | 求正弦余弦正切值 |
np.amin()和np.amax() | 指定轴的最大最小值 |
np.ptp() | 数组元素的最大值最小值的差 |
np.median() | 数组中的中位数 |
np.std() | 数组元素的标准差 |
np.var() | 方差 |
np.nonzero(a) | 输出a数组中非0的数的索引 |
np.sort(a) | 从小到大逐行进行排序 |
np.transpose(a) | 矩阵转置 |
np.clip(a,最小值,最大值) | 按照你给定的最小值、最大值进行数组截取 |
A=np.arrange(3,15).reshape((3,4))
print(A[1] [1]):输出第一行第一列,一维数组就是是直接索引;
print(A[2,1])输出第二行第一列的一个数
还可以运用切片:A[ : , 1]:每行的第一列数
for column in A.T:
print(A.T) #转置后输出行,也就是按列输出
for item in A.flat:
print(item) #将数组里每一个数字单个输出
合并:
A=np.array([1,1,1]) ; B=np.arrray([2,2,2])
print(np.vstack((A,B))) :上下合并,变成两行
print**(np.hstack((A,B)**)) :左右合并,就一行
A[ : , np.newaxis] :纵向合并,一行三列分成三行一列
np.concatenate( (A,B,B,A) ,axis=0) :纵向和横向合并
分割:
A=np.arrange(12).reshape((3,4))
np.split(A,2,axis=0) : axis=0就是指定的行 axis=1是指定的列
split只能等量分割,用 np.array_split(A,3,axis=1)是不等量分割
np.vsplit( (A,3) ) 横向分割,hsplit是纵向分割
where
是一种条件函数,可以指定满足条件与不满足条件位置对应的填充值:
a = np.array([-1,1,-1,0])
np.where(a>0, a, 5) # 对应位置为True时填充a对应元素,否则填充5
nonzero
, argmax
, argmin
这三个函数返回的都是索引,
nonzero
返回非零数的索引,argmax
,argmin
分别返回最大和最小数的索引:
a = np.array([-2,-5,0,1,3,-1])
np.nonzero(a)
a.argmax()
a.argmin()
any
, all
any`指当序列至少存在一`True`或非零元素时返回`True`,否则返回`False all`指当序列元素全为 `True`或非零元素时返回`True`,否则返回`False
cumprod
,cumsum
分别表示累乘和累加函数,返回同长度的数组,diff
表示数组中的每一个元素和前一个元素做差,由于第一个元素为缺失值,因此在默认参数情况下,返回长度是原数组减1
a = np.array([1,2,3])
a.cumprod()
a.cumsum()
np.diff(a)
因为数组里面含有缺失值,所以使用函数返回的也是缺失值,所以我们要过滤掉这些缺失值
target = np.array([1, 2, np.nan])
np.nanmax(target) #过滤掉nan计算最大值
np.nanquantile(target, 0.5)
向量内积:
a = np.array([1,2,3])
b = np.array([1,3,5])
a.dot(b)
向量范数和矩阵范数:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IyxuQiL1-1681776922727)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647175424022.png)]
matrix_target = np.arange(4).reshape(-1,2)
np.linalg.norm(matrix_target, 'fro')
np.linalg.norm(matrix_target, np.inf)
提取原数据:用
.array
或to_numpy
提取数据排除缺失值:一般的聚合函数都有
skipna
关键字,指定是否要排除缺失数据,默认值为True
。
- 注意:NumPy 的
mean
、std
、sum
等方法默认不统计 Series 里的空值
函数 | 描述 |
---|---|
count |
统计非空值数量 |
sum |
汇总值 |
mean |
平均值 |
mad |
平均绝对偏差 |
median |
算数中位数 |
min |
最小值 |
max |
最大值 |
mode |
众数 |
abs |
绝对值 |
prod |
乘积 |
std |
贝塞尔校正的样本标准偏差 |
var |
无偏方差 |
sem |
平均值的标准误差 |
skew |
样本偏度 (第三阶) |
kurt |
样本峰度 (第四阶) |
quantile |
样本分位数 (不同 % 的值) |
cumsum |
累加 |
cumprod |
累乘 |
cummax |
累积最大值 |
cummin |
累积最小值 |
Series 与 DataFrame 的 idxmax()
与 idxmin()
函数计算最大值与最小值对应的索引。
idxmin
与 idxmax
对应 NumPy 里的 argmin
与 argmax
apply()
方法沿着 DataFrame 的轴应用函数,比如,描述性统计方法,该方法支持axis
参数。它就是对DataFrame的行或列进行操作
In [141]: df.apply(np.mean)
Out[141]:
one 0.811094
two 1.360588
three 0.187958
dtype: float64
In [142]: df.apply(np.mean, axis=1)
Out[142]:
a 1.583749
b 0.734929
c 1.133683
d -0.166914
dtype: float64
In [143]: df.apply(lambda x: x.max() - x.min())
Out[143]:
one 1.051928
two 1.632779
three 1.840607
dtype: float64
apply()
方法还支持通过函数名字符串调用函数。
In [146]: df.apply('mean')
Out[146]:
one 0.811094
two 1.360588
three 0.187958
dtype: float64
In [147]: df.apply('mean', axis=1)
Out[147]:
a 1.583749
b 0.734929
c 1.133683
d -0.166914
dtype: float64
就是组合多个函数
tsdf.agg(['sum', 'mean'])
Out[160]:
A B C
sum 3.033606 -1.803879 1.575510
mean 0.505601 -0.300647 0.262585
In [161]: tsdf.A.agg(['sum', 'mean'])
Out[161]:
sum 3.033606
mean 0.505601
Name: A, dtype: float64
指定为哪些列应用哪些聚合函数时,需要把包含列名与标量(或标量列表)的字典传递给 DataFrame.agg
。
注意:这里输出结果的顺序不是固定的,要想让输出顺序与输入顺序一致,请使用 OrderedDict
。
In [165]: tsdf.agg({'A': 'mean', 'B': 'sum'})
Out[165]:
A 0.505601
B -1.803879
dtype: float64
输入的参数是列表时,输出结果为 DataFrame
,并以矩阵形式显示所有聚合函数的计算结果,且输出结果由所有唯一函数组成。未执行聚合操作的列输出结果为 NaN
值:
In [166]: tsdf.agg({'A': ['mean', 'min'], 'B': 'sum'})
Out[166]:
A B
mean 0.505601 NaN
min -0.749892 NaN
sum NaN -1.803879
.transform()
支持 NumPy 函数、字符串函数及自定义函数。
tsdf.transform(np.abs)/tsdf.transform('abs')/tsdf.transform(lambda x: x.abs())
函数字典可以为每列执行指定 transform()
操作。
tsdf.transform({'A': np.abs, 'B': lambda x: x + 1})
valus值可以使用列表
Series是一维的,显示列索引,Series(data=[],index=[])
import pandas as pd
from pandas import Series
s= Series(data=[1,2,3,'four'],index=['a','b','c','d'])
dic={
'语文':120,
'数学':117,
'英语':121,
'理综':224,
}
s= Series(data=dic) #数据源可以是numpy的矩阵、数组也可以是字典
s[0:2] #切片操作和numpy一样
head(),tail():首尾5个数据
unique():去重
s=dp.Series([1,3,6,np.nan,44,1]) #pandas会自动给列表内元素加上编号,一个一行输出
pandas就是把列表内数据进行行和列的排序,行和列的名字可以直接定义并输出
DataFrame是二维的,自动生成行列的索引
from pandas import DataFrame
df=DataFrame(data=np.random.randint(10,20,size=(4,4)),index=['a','b','c','d']
dic={
'name':['zhangsan','liis','wangwu'],
'salary':[1000,2000,3000]
}
df=DataFrame(data=dic)
DataFrame的属性:values(返回整个数据的数组),columns(行索引),index(列索引),shape()
dates=pd.date_range(‘20160101’,perides=6) 从1号一直输出到6号,因为给perides=6
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=[‘a’,‘b’,‘c’,‘d’])
我们可以打印
Series: dtype, index,values,name, shape,
DataFrame: dtypes,index , columns,values,shape , .T
(类型,行索引、列索引、值,长度)
describe()/ info(): 获取数据信息
header=None
表示第一行不作为列名,index_col
表示把某一列或几列作为索引,索引的内容将会在第三章进行详述,usecols
表示读取列的集合,默认读取所有的列,parse_dates
表示需要转化为时间的列,关于时间序列的有关内容将在第十章讲解,nrows
表示读取的数据行数。上面这些参数在上述的三个函数里都可以使用。
pd.read_csv('../data/my_csv.csv', index_col=['col1', 'col2']) 可指定多列为索引列
pd.read_csv('../data/my_csv.csv', parse_dates=['col5']) 指定时间列
-----
在读取txt文件时,经常遇到分隔符非空格的情况,read_table有一个分割参数sep,它使得用户可以自定义分割符号,进行txt数据的读取。例如,下面的读取的表以||||为分割:
上面的结果显然不是理想的,这时可以使用sep,同时需要指定引擎为python:
pd.read_table('../data/my_table_special_sep.txt', sep=' \|\|\|\| ', engine='python')
需要介绍的是
quantile, count, idxmax
这三个函数,它们分别返回的是分位数、非缺失值个数、最大值对应的索引:
df_demo.quantile(0.75)
df_demo.count()
df_demo.idxmax() # idxmin是对应的函数
唯一值:
对序列使用
unique
和nunique
可以分别得到其唯一值组成的列表和唯一值的个数:
df['School'].unique()
df['School'].nunique()
去重的使用:
duplicated
和drop_duplicates
的功能类似,但前者返回了是否为唯一值的布尔列表,其keep
参数与后者一致。其返回的序列,把重复元素设为True
,否则为False
。drop_duplicates
等价于把duplicated
为True
的对应行剔除。
df_demo.drop_duplicates(['Name', 'Gender'], keep=False).head() # 保留只出现过一次的性别和姓名组合
替换函数:
替换操作是针对某一个列进行的,因此下面的例子都以
Series
举例。pandas
中的替换函数可以归纳为三类:映射替换、逻辑替换、数值替换。其中映射替换包含replace
方法、第八章中的str.replace
方法以及第九章中的cat.codes
方法,此处介绍replace
的用法。在replace中, 可以通过字典构造,或者传入两个列表来进行替换:
df['Gender'].replace({'Female':0, 'Male':1}).head()
# 把女换成0,男换成1
df['Gender'].replace(['Female', 'Male'], [0,1]).head()
#两种都可以
还可以用最前一个或者后一个的值进行替换:
指定
method
参数为ffill
则为用前面一个最近的未被替换的值进行替换,bfill
则使用后面最近的未被替换的值进行替换
s = pd.Series(['a', 1, 'b', 2, 1, 1, 'a'])
s.replace([1, 2], method='ffill')
s.replace([1, 2], method='bfill') #替换1,2
逻辑替换:
包括了
where
和mask
,这两个函数是完全对称的:where
函数在传入条件为False
的对应行进行替换,而mask
在传入条件为True
的对应行进行替换,当不指定替换值时,替换为缺失值。
s = pd.Series([-1, 1.2345, 100, -50])
s.where(s<0, 100)
s.mask(s<0, -50) #符合条件的用,对应的值进行替换
索引排序的用法和值排序完全一致,只不过元素的值在索引中,此时需要指定索引层的名字或者层号,用参数
level
表示。另外,需要注意的是字符串的排列顺序由字母顺序决定。
set_index:指定多列可生成多级索引的表
demo = df[['Grade', 'Name', 'Height', 'Weight']].set_index(['Grade','Name'])
df.sort_index(level['Grade','Name'],axis=0,ascending=Flase):对行进行排序
df.sort_values(by=[‘E’]):对E这一列的值进行排序
多列排序:
在排序中,经常遇到多列排序的问题,比如在体重相同的情况下,对身高进行排序,并且保持身高降序排列,体重升序排列:
df_demo.sort_values(['Weight','Height'],ascending=[True,False]).head()
df[‘A’] :选择输出A这一列
df[['A','B']] : 输出多列放在列表中
等价于
df.A
在df.query里面 直接使用列名 带空格用英文 的这个符号`...`
1.字符串索引
s = pd.Series([1, 2, 3, 4, 5, 6], index=['a', 'b', 'a', 'a', 'a', 'c'])
s['a'] 和s[['a','b']]
索引切片:(注意索引不能重复)
s['c': 'b': -2]
如果索引重复:需要排序后切片
s.sort_index()['a': 'b']
2. 整数索引
s[1] s[[1,2,3]]
如果使用整数切片,则会取出对应索引位置的值,注意这里的整数切片同Python中的切片一样不包含右端点:
s[1:-1:2] 步长为2
print(df[0:3],df[‘20130102’:‘20130104’] :用切片或者指定区间
loc
索引器的一般形式是loc[*, *]
,其中第一个*
代表行的选择,第二个*
代表列的选择,如果省略第二个位置写作loc[*]
,这个*
是指行的筛选。其中,*
的位置一共有五类合法对象,分别是:单个元素、元素列表、元素切片、布尔列表以及函数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pnXStrJb-1681776922732)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647179615440.png)]
df.loc[‘20130102’]
df.loc[ : ,[‘A’,‘B’]:打印所有行和A和B两列
df.loc[ ‘ 20130102 ’ , [ ‘A’ , ‘B’] ] :输出20130102这行的A和B两列的值
【b】*为元素列表
此时,取出列表中所有元素值对应的行或列:
df_demo.loc[['Qiang Sun','Quan Zhao'], ['School','Gender']]
【c】*为切片
之前的Series使用字符串索引时提到,如果是唯一值的起点和终点字符,那么就可以使用切片,并且包含两个端点,如果不唯一则报错:
df_demo.loc['Gaojuan You':'Gaoqiang Qian', 'School':'Gender']
【d】*为布尔列表
在实际的数据处理中,根据条件来筛选行是极其常见的,此处传入loc的布尔列表与DataFrame长度相同,且列表为True的位置所对应的行会被选中,False则会被剔除。
例如,选出体重超过70kg的学生:
df_demo.loc[df_demo.Weight>70].head()
也可以通过isin方法返回的布尔列表等价写出,例如选出所有大一和大四的同学信息:
df_demo.loc[df_demo.Grade.isin(['Freshman', 'Senior'])].head()
isnotin???? 不不不,这里是使用bool类型,前面加逻辑非运算就好了
df_demo.loc[~df_demo.Grade.isin(['Freshman', 'Senior'])].head()
组合条件查询:
#组合1
condition_1_1 = df_demo.School == 'Fudan University'
condition_1_2 = df_demo.Grade == 'Senior'
condition_1_3 = df_demo.Weight > 70
condition_1 = condition_1_1 & condition_1_2 & condition_1_3
#组合2
condition_2_1 = df_demo.School == 'Peking University'
condition_2_2 = df_demo.Grade == 'Senior'
condition_2_3 = df_demo.Weight > 80
condition_2 = condition_2_1 & (~condition_2_2) & condition_2_3
df_demo.loc[condition_1 | condition_2]
将条件查询封装成函数
def condition(x):
condition_1_1 = x.School == 'Fudan University'
condition_1_2 = x.Grade == 'Senior'
condition_1_3 = x.Weight > 70
condition_1 = condition_1_1 & condition_1_2 & condition_1_3
condition_2_1 = x.School == 'Peking University'
condition_2_2 = x.Grade == 'Senior'
condition_2_3 = x.Weight > 80
condition_2 = condition_2_1 & (~condition_2_2) & condition_2_3
result = condition_1 | condition_2
return result
df_demo.loc[condition]
lambda形式:
df_demo.loc[lambda x:'Quan Zhao', lambda x:'Gender']
由于函数无法返回如start: end: step的切片形式,故返回切片时要用slice对象进行包装:
df_demo.loc[lambda x: slice('Gaojuan You', 'Gaoqiang Qian')]
df.iloc[3,1] :选择第三行第一列
df.iloc[ [3:5 , 1:3] :三到五行的一到三列
di.iloc[[1,3,5],1:3] :选择1,3,5行的第一到第三列
布尔选择:
在使用布尔列表的时候要特别注意,不能传入
Series
,而必须传入序列的values
,否则会报错。因此,在使用布尔筛选的时候还是应当优先考虑loc
的方式。
df_demo.iloc[(df_demo.Weight>80).values].head()
ix是标签和位置一起使用
df.ix[ :3 , [ ‘A’ , ‘C’ ]] :第0行到第3行,A和C两列
是否筛选:
print(df[df.A>8]) :在A这列筛选值大于8的,A列输出满足条件的行时,同行的数据也会输出
df.iloc[2,2]=1111 df.iloc[‘20100101’ , ‘B’]=2222 横向和纵向定位更改
df[df.A>0]=0 A这列大于0的数字变成0
df[‘F’]=np.nan 加上F这列,赋值nan
df[‘E’]=pd.Series( [1,2,3,4,5,6] ,index=pd.date_range(‘20130101’ , periods=6) )
缺失数据可以使用
isna
或isnull
(两个函数没有区别)来查看每个单元格是否缺失,结合mean
可以计算出每列缺失值的比例:df.isnull()/isna()
如果想要查看某一列缺失或者非缺失的行,可以利用
Series
上的isna
或者notna
进行布尔索引。例如,查看身高缺失的行:
df[df.Height.isna()]
如果想要同时对几个列,检索出全部为缺失或者至少有一个缺失或者没有缺失的行,可以使用
isna, notna
和any, all
的组合。例如,对身高、体重和转系情况这3列分别进行这三种情况的检索:sub_set = df[['Height', 'Weight', 'Transfer']] df[sub_set.isna().all(1)] # 全部缺失 df[sub_set.isna().any(1)].head() # 至少有一个缺失 df[sub_set.notna().all(1)].head() # 没有缺失
dropna
的主要参数为轴方向axis
(默认为0,即删除行)、删除方式how
、删除的非缺失值个数阈值thresh
(非缺失值非缺失值没有达到这个数量的相应维度会被删除)、备选的删除子集subset
,其中how
主要有any
和all
两种参数可以选择。
例如,删除身高体重至少有一个缺失的行:
res = df.dropna(how = 'any', subset = ['Height', 'Weight'])
res.shape
例如,删除超过15个缺失值的列:
res = df.dropna(1, thresh=df.shape[0]-15) # 身高被删除
res.head()
在
fillna
中有三个参数是常用的:value, method, limit
。其中,value
为填充值,可以是标量,也可以是索引到元素的字典映射;
method
为填充方法,有用前面的元素填充ffill
和用后面的元素填充bfill
两种类型,
limit
参数表示连续缺失值的最大填充次数。
s.fillna(method='ffill') # 用前面的值向后填充
s.fillna(method='ffill', limit=1) # 连续出现的缺失,最多填充一次
s.fillna(s.mean()) # value为标量
s.fillna({'a': 100, 'd': 200}) # 通过索引映射填充的值
有时为了更加合理地填充,需要先进行分组后再操作。例如,根据年级进行身高的均值填充:
df.groupby('Grade')['Height'].transform(lambda x: x.fillna(x.mean())).head()
线性插值、最近邻插值和索引插值
对于
interpolate
而言,除了插值方法(默认为linear
线性插值)之外,有与fillna
类似的两个常用参数,一个是控制方向的
limit_direction
,另一个是控制最大连续缺失值插值个数的
limit
。其中,限制插值的方向默认为
forward
,这与fillna
的method
中的ffill
是类似的,若想要后向限制插值或者双向限制插值可以指定为backward
或both
。
默认线性插值法下分别进行backward和双向限制插值,同时限制最大连续条数为1:
res = s.interpolate(limit_direction='backward/both', limit=1)
res.values
第二种常见的插值是最近邻插补,即缺失值的元素和离它最近的非缺失值元素一样:
s.interpolate('nearest').values
最后来介绍索引插值,即根据索引大小进行线性插值。例如,构造不等间距的索引进行演示:
s.interpolate() # 默认的线性插值,等价于计算中点的值,1和10中间缺失补5
s.interpolate(method='index')
# 和索引有关的线性插值,计算相应索引大小对应的值,1和10中间缺失补1,因为差10个索引,每个索引为1 ,即索引线性
对于时间戳亦可用
在python
中的缺失值用None
表示,该元素除了等于自己本身之外,与其他任何元素不相等:
在numpy
中利用np.nan
来表示缺失值,该元素除了不和其他任何元素相等之外,和自身的比较结果也返回False
:
在时间序列的对象中,pandas
利用pd.NaT
来指代缺失值,它的作用和np.nan
是一致的
由于np.nan
的浮点性质,如果在一个整数的Series
中出现缺失,那么其类型会转变为float64
;而如果在一个布尔类型的序列中出现缺失,那么其类型就会转为object
而不是bool
从字面意义上看Nullable
就是可空的,言下之意就是序列类型不受缺失值的影响。例如,在上述三个Nullable
类型中存储缺失值,都会转为pandas
内置的pd.NA
:
一般在实际数据处理时,可以在数据集读入后,先通过convert_dtypes
转为Nullable
类型:
df = pd.read_csv('../data/learn_pandas.csv')
df = df.convert_dtypes()
df.dtypes
缺失数据的计算:
当调用函数sum, prod
使用加法和乘法的时候,缺失数据等价于被分别视作0和1,即不改变原来的计算结果:
当使用累计函数时,会自动跳过缺失值所处的位置:
另外需要注意的是,diff, pct_change
这两个函数虽然功能相似,但是对于缺失的处理不同,前者凡是参与缺失计算的部分全部设为了缺失值,而后者缺失值位置会被设为 0% 的变化率
#删除B和C两列,两种方法
df.drop(['B', 'C'], axis=1)
df.drop(columns=['B', 'C'])
#删除行
df.drop([0])
df.drop([0, 1])
#删除(del、pop)列的方式也与字典类似
del df['two']
three = df.pop('three')
在pandas
中,支持把字符串形式的查询表达式传入query
方法来查询数据,其表达式的执行结果必须返回布尔列表。在进行复杂索引时,由于这种检索方式无需像普通方法一样重复使用DataFrame
的名字来引用列名,一般而言会使代码长度在不降低可读性的前提下有所减少。
df.query('((School == "Fudan University")&'
' (Grade == "Senior")&'
' (Weight > 70))|'
'((School == "Peking University")&'
' (Grade != "Senior")&'
' (Weight > 80))')
在query
表达式中,帮用户注册了所有来自DataFrame
的列名,所有属于该Series
的方法都可以被调用,和正常的函数调用并没有区别,例如查询体重超过均值的学生:
df.query('Weight > Weight.mean()').head()
对于含有空格的列名,需要使用英文顿号col name
的方式进行引用
同时,在query
中还注册了若干英语的字面用法,帮助提高可读性,例如:or, and, or, in, not in
。例如,筛选出男生中不是大一大二的学生:
df.query('(Grade not in ["Freshman", "Sophomore"]) and (Gender == "Male")').head()
此外,在字符串中出现与列表的比较时,==
和!=
分别表示元素出现在列表和没有出现在列表,等价于in
和not in
,例如查询所有大三和大四的学生:
df.query('Grade == ["Junior", "Senior"]').head()
引入外部变量:
对于
query
中的字符串,如果要引用外部变量,只需在变量名前加@
符号。例如,取出体重位于70kg到80kg之间的学生:
low, high =70, 80
df.query('Weight.between(@low, @high)').head()
df['Cocoa Percent'] = df['Cocoa Percent'].apply(lambda x:float(x[:-1])/100)
df.query('(Rating<3)&(`Cocoa Percent`>`Cocoa Percent`.median())')
df.loc[lambda x:x.Rating<=2.75&(x["Cocoa Percent"]>x["Cocoa Percent"].median())]
idx = pd.IndexSlice
exclude = ['France', 'Canada', 'Amsterdam', 'Belgium']
res = df.set_index(['Review Date', 'Company Location']).sort_index(level=0)
#这里对索引再就行筛选
res.loc[idx[2012:,~res.index.get_level_values(1).isin(exclude)],:].head(3)
如果把
DataFrame
的每一行看作一个样本,或把每一列看作一个特征,再把整个DataFrame
看作总体,想要对样本或特征进行随机抽样就可以用sample
函数。有时在拿到大型数据集后,想要对统计特征进行计算来了解数据的大致分布,但是这很费时间。同时,由于许多统计特征在等概率不放回的简单随机抽样条件下,是总体统计特征的无偏估计,比如样本均值和总体均值,那么就可以先从整张表中抽出一部分来做近似估计
sample
函数中的主要参数为n, axis, frac, replace, weights
,前三个分别是指抽样数量、抽样的方向(0为行、1为列)和抽样比例(0.3则为从总体中抽出30%的样本)。
replace
和weights
分别是指是否放回和每个样本的抽样相对概率,当replace = True
则表示有放回抽样。例如,对下面构造的df_sample
以value
值的相对大小为抽样概率进行有放回抽样,抽样数量为3。
df_sample.sample(3, replace = True, weights = df_sample.value)
loc:
由于多级索引中的单个元素以元组为单位,因此之前在第一节介绍的
loc
和iloc
方法完全可以照搬,只需把标量的位置替换成对应的元组。当传入元组列表或单个元组或返回前二者的函数时,需要先进行索引排序以避免性能警告:
df_sorted = df_multi.sort_index()
df_sorted.loc[('Fudan University', 'Junior')].head()
df.index/columns.names/values
df.index.get_level_values(0/1) 获取第一层、第二层
但对于索引而言,无论是单层还是多层,用户都无法通过index_obj[0] = item的方式来修改元素,也不能通过index_name[0] = new_name的方式来修改名字
经典案例:
idx = pd.IndexSlice
exclude = ['France', 'Canada', 'Amsterdam', 'Belgium']
res = df.set_index(['Review Date', 'Company Location']).sort_index(level=0)
res.loc[idx[2012:,~res.index.get_level_values(1).isin(exclude)],:].head(3)
当使用切片时需要注意,在单级索引中只要切片端点元素是唯一的,那么就可以进行切片,但在多级索引中,无论元组在索引中是否重复出现,都必须经过排序才能使用切片,否则报错
#报错
df_multi.loc[('Fudan University', 'Senior'):].head()
df_unique.loc[('Fudan University', 'Senior'):].head()
#更正
df_unique.sort_index().loc[('Fudan University', 'Senior'):].head()
在多级索引中的元组有一种特殊的用法,可以对多层的元素进行交叉组合后索引,但同时需要指定loc
的列,全选则用:
表示。其中,每一层需要选中的元素用列表存放,传入loc
的形式为[(level_0_list, level_1_list), cols]
。例如,想要得到所有北大和复旦的大二大三学生,可以如下写出:
res = df_multi.loc[(['Peking University', 'Fudan University'], ['Sophomore', 'Junior']), :]
res.head()
下面的语句和上面类似,但仍然传入的是元素(这里为元组)的列表,它们的意义是不同的,表示的是选出北大的大三学生和复旦的大二学生:
res = df_multi.loc[[('Peking University', 'Junior'), ('Fudan University', 'Sophomore')]]
res.head()
想获取查询的子表的长度时,别用len了!!
result.shape[0] / shape[1]
前面介绍的方法,即使在索引不重复的时候,也只能对元组整体进行切片,而不能对每层进行切片,也不允许将切片和布尔列表混合使用,引入IndexSlice
对象就能解决这个问题。Slice
对象一共有两种形式,第一种为loc[idx[*,*]]
型,第二种为loc[idx[*,*],idx[*,*]]
型
为了使用silce对象,先要进行定义:
idx = pd.IndexSlice
loc[idx[*,*]]型
这种情况并不能进行多层分别切片,前一个*表示行的选择,后一个*表示列的选择,与单纯的loc是类似的:
df_ex.loc[idx['C':, ('D', 'f'):]]
df_ex.loc[idx[:'A', lambda x:x.sum()>0]] # 列和大于0
------
loc[idx[*,*],idx[*,*]]型
这种情况能够分层进行切片,前一个idx指代的是行索引,后一个是列索引。
df_ex.loc[idx[:'A', 'b':], idx['E':, 'e':]]
但需要注意的是,此时不支持使用函数
例如:
df_ex.loc[idx[:'A', lambda x: 'b'], idx['E':, 'e':]]
前面提到了多级索引表的结构和切片,那么除了使用
set_index
之外,如何自己构造多级索引呢?常用的有from_tuples, from_arrays, from_product
三种方法,它们都是pd.MultiIndex
对象下的函数。
from_tuples
指根据传入由元组组成的列表进行构造:
my_tuple = [('a','cat'),('a','dog'),('b','cat'),('b','dog')]
pd.MultiIndex.from_tuples(my_tuple, names=['First','Second'])
from_arrays
指根据传入列表中,对应层的列表进行构造:
my_array = [list('aabb'), ['cat', 'dog']*2]
pd.MultiIndex.from_arrays(my_array, names=['First','Second'])
from_product
指根据给定多个列表的笛卡尔积进行构造:
my_list1 = ['a','b']
my_list2 = ['cat','dog']
pd.MultiIndex.from_product([my_list1, my_list2], names=['First','Second'])
构造举例:
p.random.seed(0)
L1,L2,L3 = ['A','B'],['a','b'],['alpha','beta']
mul_index1 = pd.MultiIndex.from_product([L1,L2,L3], names=('Upper', 'Lower','Extra'))
L4,L5,L6 = ['C','D'],['c','d'],['cat','dog']
mul_index2 = pd.MultiIndex.from_product([L4,L5,L6], names=('Big', 'Small', 'Other'))
df_ex = pd.DataFrame(np.random.randint(-9,10,(8,8)), index=mul_index1, columns=mul_index2)
df_ex
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-riUavTPe-1681776922733)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647218897760.png)]
交换:
索引层的交换由swaplevel
和reorder_levels
完成,前者只能交换两个层,而后者可以交换任意层,两者都可以指定交换的是轴是哪一个,即行索引或列索引:
df_ex.swaplevel(0,2,axis=1).head() # 列索引的第一层和第三层交换
df_ex.reorder_levels([2,0,1],axis=0).head()
# 列表数字指代原来索引中的层
把原来第3层换到第1层,原来第1层换到第2层,原来第2层换到第3层
删除某一层:
df_ex.droplevel([0,1],axis=0/1) #0是行索引,1是列索引
修改:
通过
rename_axis
可以对索引层的名字进行修改,常用的修改方式是传入字典的映射:
df_ex.rename_axis(index={'Upper':'Changed_row'}, columns={'Other':'Changed_Col'}).head()
通过rename可以对索引的值进行修改,如果是多级索引需要指定修改的层号level:
df_ex.rename(columns={'cat':'not_cat'}, level=2).head()
df_ex.rename(index=lambda x:str.upper(x), level=2).head()
另外一个需要介绍的函数是map,它是定义在Index上的方法,与前面rename方法中层的函数式用法是类似的,只不过它传入的不是层的标量值,而是直接传入索引的元组,这为用户进行跨层的修改提供了遍历
df_temp = df_ex.copy()
new_idx = df_temp.index.map(
lambda x: (x[0], x[1], str.upper(x[2])))
df_temp.index = new_idx
df_temp.head()
索引的设置可以使用
set_index
完成,这里的主要参数是append
,表示是否来保留原来的索引,直接把新设定的添加到原索引的内层:
df_new.set_index(['A','B'])
reset_index
是set_index
的逆函数,其主要参数是drop
,表示是否要把去掉的索引层丢弃,而不是添加到列中:
df_new.reset_index(['D'],drop=False)
1.df.columns 查看当前行标签
df.indexs = []
df.columns = []新标签列表
2.DataFrame.rename(index={},columns={'原标签名':'新标签名'})
df.rename(columns={"A":"a"})
df.rename(index={0:'A'})
3.df.reindex(index=[...],columns=[...])
多重索引:
df = pd.DataFrame({'x': [1, 2, 3, 4, 5, 6],
'y': [10, 20, 30, 40, 50, 60]},
index=pd.MultiIndex.from_product([['a', 'b', 'c'], [1, 2]],
names=['let', 'num']))
In [242]: df
Out[242]:
x y
let num
a 1 1 10
2 2 20
b 1 3 30
2 4 40
c 1 5 50
2 6 60
NAN可以参与运算,None不能参与运算
all:用来检测行或者列中是否存在True
df.isnull().any(axis=1)
df.dropna(axis=0,how=‘any’)
在行中有任何一个none就就掉,如果how=all的话,一行所有的都是none就丢掉
df.fillna(value=填入值) 把已有的none自动填入数据
nf.fillna(method=‘ffill/bfill’,axis=0/1),向前/后填充,水平/上下
df.isnull() 缺失返回True,否则Flase,永远结合any,只要有True就返回True
df.notnull():缺失返回Flase,否则True,永远结合all,只要有True就返回True
读表格:pd.read_excel/csv(‘文件名+后缀’)
改行索引:
df.set_index(‘date’,inplace=True)
删除重复:
nf.drop_duplicates(keep = ‘first/last’)
级联:
pd.concat(df1,df2,axis=1/0)
合并:
pd.merge(df1,df2,on='根据哪一列合并,即合并条件,合并的列都要有是共同的')
merge(df1,df2,how='inner/outner/right/left')
Series
提供一个可以简单、快捷地返回 datetime
属性值的访问器。这个访问器返回的也是 Series,索引与现有的 Series 一样。
s = pd.Series(pd.date_range('20130101 09:10:12', periods=4))
s.dt.hour
s.dt.second
s.dt.day
筛选:
s[s.dt.day == 2]
还可以用 [Series.dt.strftime()
把 datetime
的值当成字符串进行格式化,支持与标准 [strftime()
同样的格式。
s.dt.strftime('%Y/%m/%d')
df_dt.apply(lambda x: datetime.strftime(x, format))
或
df_dt.dt.strftime(format)
#将int转换成str
df_date = df['日期'].apply(str)
#用to_datetime()函数将字符串转换成时间格式,并增加'时间'字段
df['时间'] = pd.to_datetime(df_date,format='%Y/%m/%d')
print(df['时间'])
#将日期格式化,并增加'格式化日期'字段
df['格式化日期1'] = df.时间.apply(lambda x: datetime.
strftime(x, format='%Y-%m-%d'))
df['格式化日期2'] = df.时间.dt.strftime('%Y-%m-%d')
print(df['格式化日期1'],'\n',df['格式化日期2'])
#抽取'时间'字段中的值
df['时间.年'] = df['时间'].dt.year
df['时间.月'] = df['时间'].dt.month
df['时间.周'] = df['时间'].dt.weekday
df['时间.日'] = df['时间'].dt.day
df['时间.时'] = df['时间'].dt.hour
df['时间.分'] = df['时间'].dt.minute
df['时间.秒'] = df['时间'].dt.second
#法一:
dft = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})
dft[['a', 'b']] = dft[['a', 'b']].astype(np.uint8)
#法二:
dft1 = dft1.astype({'a': np.bool, 'c': np.float64})
Pandas 提供了多种函数可以把 object
从一种类型强制转为另一种类型。这是因为,数据有时存储的是正确类型,但在保存时却存成了 object
类型,此时,用 DataFrame.infer_objects()
与 Series.infer_objects()
方法即可把数据软转换为正确的类型。
df.infer_objects().dtypes
下列函数可以应用于一维数组与标量,执行硬转换,把对象转换为指定类型。
to_numeric()
,转换为数值型In [370]: m = ['1.1', 2, 3]
In [371]: pd.to_numeric(m)
Out[371]: array([1.1, 2. , 3. ])
to_datetime()
(opens new window),转换为 datetime
对象In [372]: import datetime
In [373]: m = ['2016-07-09', datetime.datetime(2016, 3, 2)]
In [374]: pd.to_datetime(m)
Out[374]: DatetimeIndex(['2016-07-09', '2016-03-02'], dtype='datetime64[ns]', freq=None)
groupby后会生成一个groupby对象,该对象不会返回任何内容
从上述的几个例子中不难看出,想要实现分组操作,必须明确三个要素:
分组依据、数据来源、操作及其返回结果。
同时从充分性的角度来说,如果明确了这三方面,就能确定一个分组操作,从而分组代码的一般模式即:
df.groupby(分组依据)[数据来源].使用操作
例如第一个例子中的代码就应该如下:
df.groupby('Gender')['Longevity'].mean()
基本内容:
- 根据某一列分组
- 根据某几列分组
- 组容量与组数
- 组的遍历
- level参数(多级索引)和axis参数
分组完想df可视化 : to_frame()
“group by” 指的是涵盖下列一项或多项步骤的处理流程:
分组后取出一个分组:
df_group = df.groupby('...')
df_group.get_group(分组名)
根据几组分:df.groupby(['...'])
查看组的容量: group.size 返回的是表长乘以表宽的大小,但在groupby对象上表示统计每个组的元素个数
查看组数:group.ngroups
groups属性是获取分组的字典:gb.groups.item()/keys()
分完组然后选中列:df.groupby('...')[['col1,col2']].mean()
条件分组:
condition = df.Weight > df.Weight.mean()
df.groupby(condition)['Height'].mean()
根据上下四分位数分割,将体重分为high、normal、low三组,统计身高的均值
def split_weight(x):
if x>df.Weight.quantile(0.75):
return 'high'
elif x
df = pd.DataFrame(
{'A': ['foo', 'bar', 'foo', 'bar',
'foo', 'bar', 'foo', 'foo'],
'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
'C': np.random.randn(8),
'D': np.random.randn(8)})
df.groupby('A').sum()
df.groupby(['A', 'B']).sum()
通过get_group方法可以直接获取所在组对应的行,此时必须知道组的具体名字:
gb.get_group(('Fudan University', 'Freshman'))
连续变量分组:
bins = [0,40,60,80,100]
cuts = pd.cut(df['Math'],bins=bin)
df.groupby(cuts)['Math'].count()
同时使用多个聚合函数:
group_m.agg('sum','mean','std')
group_m.agg({'Math':['sum','mean','std'],'Height':'var'})
group_m['Math'].agg(lambda x: x.max()-min())
1. 内置聚合函数
在介绍agg之前,首先要了解一些直接定义在groupby对象的聚合函数,因为它的速度基本都会经过内部的优化,使用功能时应当优先考虑。根据返回标量值的原则,包括如下函数:
max/min/mean/median/count/all/any/idxmax/idxmin/mad/nunique/skew/quantile/sum/std/var/sem/size/prod
。
这些聚合函数当传入的数据来源包含多个列时,将按照列进行迭代计算:
gb = df.groupby('Gender')[['Height', 'Weight']]
gb.max()
虽然在
groupby
对象上定义了许多方便的函数,但仍然有以下不便之处:
- 无法同时使用多个函数
- 无法对特定的列使用特定的聚合函数
- 无法使用自定义的聚合函数
- 无法直接对结果的列名在聚合前进行自定义命名
问题解决方法:
【a】使用多个函数
当使用多个聚合函数时,需要用列表的形式把内置聚合函数对应的字符串传入,先前提到的所有字符串都是合法的。
gb.agg(['sum', 'idxmax', 'skew'])
【b】对特定的列使用特定的聚合函数
对于方法和列的特殊对应,可以通过构造字典传入agg中实现,其中字典以列名为键,以聚合字符串或字符串列表为值。
gb.agg({'Height':['mean','max'], 'Weight':'count'})
【c】使用自定义函数
在agg中可以使用具体的自定义函数, 需要注意传入函数的参数是之前数据源中的列,逐列进行计算 。
gb.agg(lambda x: x.mean()-x.min())
由于传入的是序列,因此序列上的方法和属性都是可以在函数中使用的,只需保证返回值是标量即可。
下面的例子是指,如果组的指标均值,超过该指标的总体均值,返回High,否则返回Low。
def my_func(s):
res = 'High'
if s.mean() <= df[s.name].mean():
res = 'Low'
return res
gb.agg(my_func)
【d】聚合结果重命名
如果想要对聚合结果的列名进行重命名,只需要将上述函数的位置改写成元组,元组的第一个元素为新的名字,第二个位置为原来的函数,包括聚合字符串和自定义函数,现举若干例子说明:
gb.agg([('range', lambda x: x.max()-x.min()), ('my_sum', 'sum')])
gb.agg({'Height': [('my_func', my_func), 'sum'], 'Weight': lambda x:x.max()})
另外需要注意,使用对一个或者多个列使用单个聚合的时候,重命名需要加方括号,否则就不知道是新的名字还是手误输错的内置函数字符串:
gb.agg([('my_sum', 'sum')])
变换函数的返回值为同长度的序列,最常用的内置变换函数是累计函数:
cumcount/cumsum/cumprod/cummax/cummin
,它们的使用方式和聚合函数类似,只不过完成的是组内累计操作。当用自定义变换时需要使用
transform
方法,被调用的自定义函数,其传入值为数据源的序列其传入值为数据源的序列,与agg
的传入类型是一致的,其最后的返回结果是行列索引与数据源一致的DataFrame
。
gb.transform(lambda x: (x-x.mean())/x.std()).head()
组过滤作为行过滤的推广,指的是如果对一个组的全体所在行进行统计的结果返回
True
则会被保留,False
则该组会被过滤,最后把所有未被过滤的组其对应的所在行拼接起来作为DataFrame
返回。在
groupby
对象中,定义了filter
方法进行组的筛选,其中自定义函数的输入参数为数据源构成的DataFrame
本身,在之前例子中定义的groupby
对象中,传入的就是df[['Height', 'Weight']]
,因此所有表方法和属性都可以在自定义函数中相应地使用,同时只需保证自定义函数的返回为布尔值即可。
在原表中通过过滤得到所有容量大于100的组:
gb.filter(lambda x: x.shape[0] > 100).head()
分组apply用法:
def BMI(x):
Height = x['Height']/100
Weight = x['Weight']
BMI_value = Weight/Height**2
return BMI_value.mean()
gb.apply(BMI)
先过滤出所属Country数超过2个的汽车,即若该汽车的Country在总体数据集中出现次数不超过2则剔除,再按Country分组计算价格均值、价格变异系数、该Country的汽车数量,其中变异系数的计算方法是标准差除以均值,并在结果中把变异系数重命名为CoV。
按照表中位置的前三分之一、中间三分之一和后三分之一分组,统计Price的均值。
对类型Type分组,对Price和HP分别计算最大值和最小值,结果会产生多级索引,请用下划线把多级列索引合并为单层索引。
对类型Type分组,对HP进行组内的min-max归一化。
对类型Type分组,计算Disp.与HP的相关系数。
df.groupby('Country').filter(lambda x:x.shape[0]>2)
.groupby('Country')['Price']
.agg([('CoV', lambda x: x.std()/x.mean()), 'mean', 'count'])
#表的长度为60
condition = ['Head']*20+['Mid']*20+['Tail']*20
df.groupby(condition)['Price'].mean()
res = df.groupby('Type').agg({'Price': ['max'], 'HP': ['min']})
# res.columns = res.columns.map(lambda x:'_'.join(x))
res.columns
res = df.groupby('Type')['Price','HP'].agg(['max','min'])
# res.columns = res,columns.map(lambda x:'_'.join(x))
res
apply函数会遍历指定的所有行或者列
标量返回
df[['school','Math','Height']].groupby('school').apply(lambda x:x.max())
列表返回
df[['school','Math','Height']].groupby('school') .apply(lambda x: pd.DataFrame({"col":values}))
数据框返回
criterion = ver['applicant_race_name_1'].map(lambda x: x.startswith('W'))
df2['..'] = df2['...'].map(str.strip)
df2.columns = df2.columns.str.upper
df['...'].apply(str.upper)
自定义函数:
自定义函数的接收值就是前面指定的行/列的值,经过处理后,return的值就是填充进去的
def my_mean(x):
res = x.mean()
return res
df_demo.apply(my_mean)
pandas
中有3类窗口,分别是滑动窗口rolling
、扩张窗口expanding
以及指数加权窗口ewm
。需要说明的是,以日期偏置为窗口大小的滑动窗口将在第十章讨论,指数加权窗口见本章练习。
要使用滑窗函数,就必须先要对一个序列使用.rolling
得到滑窗对象,其最重要的参数为窗口大小window
。
s = pd.Series([1,2,3,4,5])
roller = s.rolling(window = 3) #三个数据为一组的滑窗
roller
在得到了滑窗对象后,能够使用相应的聚合函数进行计算,需要注意的是窗口包含当前行所在的元素,例如在第四个位置进行均值运算时,应当计算(2+3+4)/3,而不是(1+2+3)/3:
roller.mean()
roller.sum() #前面几个和后面几个会出现NAN值
滑动系数和协方差矩阵
roller.cov(s2)
roller.corr(s2)
支持传入自定义函数:
roller.apply(lambda x:x.mean())
滑窗函数:
shift, diff, pct_change
是一组类滑窗函数,它们的公共参数为periods=n
,默认为1shift表示取向前第
n
个元素的值diff与向前第
n
个元素做差(与Numpy
中不同,后者表示n
阶差分)pct_change与向前第
n
个元素相比计算增长率。这里的n
可以为负,表示反方向的类似操作。
s = pd.Series([1,3,6,10,15])
s.shift(2)
s.diff(3)
可用apply函数等价替换
s.rolling(3).apply(lambda x:list(x)[0]) # s.shift(2)
s.rolling(4).apply(lambda x:list(x)[-1]-list(x)[0]) # s.diff(3)
扩张窗口:
扩张窗口又称累计窗口,可以理解为一个动态长度的窗口,其窗口的大小就是从序列开始处到具体操作的对应位置,其使用的聚合函数会作用于这些逐步扩张的窗口上。具体地说,设序列为a1, a2, a3, a4,则其每个位置对应的窗口即[a1]、[a1, a2]、[a1, a2, a3]、[a1, a2, a3, a4]。
s = pd.Series([1, 3, 6, 10])
s.expanding().mean()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j2OPrmxR-1681776922734)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647178551663.png)]
ewm
窗口在扩张窗口中,用户可以使用各类函数进行历史的累计指标统计,但这些内置的统计函数往往把窗口中的所有元素赋予了同样的权重。事实上,可以给出不同的权重来赋给窗口中的元素,指数加权窗口就是这样一种特殊的扩张窗口。
其中,最重要的参数是alpha
,它决定了默认情况下的窗口权重为=(1−),∈{0,1,…,}wi=(1−α)i,i∈{0,1,…,t},其中=i=t表示当前元素,=0i=0表示序列的第一个元素。
从权重公式可以看出,离开当前值越远则权重越小,若记原序列为x,更新后的当前元素为y_t,此时通过加权公式归一化后可知:
$$
\begin{split}y_t &=\frac{\sum_{i=0}^{t} w_i x_{t-i}}{\sum_{i=0}^{t} w_i} \
&=\frac{x_t + (1 - \alpha)x_{t-1} + (1 - \alpha)^2 x_{t-2} + …
对于Series
而言,可以用ewm
对象如下计算指数平滑后的序列:
np.random.seed(0)
s = pd.Series(np.random.randint(-1,2,30).cumsum())
s.head()
s.ewm(alpha=0.2).mean().head()
作为滑动窗口的ewm
窗口
从第1问中可以看到,ewm
作为一种扩张窗口的特例,只能从序列的第一个元素开始加权。现在希望给定一个限制窗口n
,只对包含自身的最近的n
个元素作为窗口进行滑动加权平滑。请根据滑窗函数,给出新的wi
与yt
的更新公式,并通过rolling
窗口实现这一功能。
什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:
一个表中把性别存储在某一个列中,那么它就是关于性别的长表;
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BuX6hVsh-1681776922736)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336037964.png)]
如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AKKQesgJ-1681776922737)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336049468.png)]
pviot表具有三个参数,index,columns,values,
pivot
相关的三个参数允许被设置为列表,这也意味着会返回多级索引 .利用
pivot
进行变形操作需要满足唯一性的要求,即由于在新表中的行列索引对应了唯一的value
,因此原表中的index
和columns
对应两个列的行组合必须唯一。
将此表进行变形:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AmdAfn6T-1681776922739)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336658156.png)]
df.pivot(index='Name', columns='Subject', values='Grade')
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V6I1kIR6-1681776922740)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336686939.png)]
多级索引变形:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o0uZDEUH-1681776922740)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336827247.png)]
pivot_multi = df.pivot(index = ['Class', 'Name'],
columns = ['Subject','Examination'], #将这两列变为列索引
values = ['Grade','rank'])
pivot_multi
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hWJgCVH3-1681776922741)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336867260.png)]
如果我们想在pivot表的基础上进行统计计算或边缘合并,就得用到pivot_table
其中的aggfunc
参数就是使用的聚合函数进行统计计算。上述场景可以如下写出:
df.pivot_table(index = 'Name',
columns = 'Subject',
values = 'Grade',
aggfunc = lambda x:x.mean())
边缘合并:
可以通过设置
margins=True
来实现,其中边际的聚合方式与aggfunc
中给出的聚合方法一致
df.pivot_table(index = 'Name',
columns = 'Subject',
values = 'Grade',
aggfunc='mean',
margins=True)
melt表就是和pivot表的互逆转化
df_melted = df.melt(id_vars = ['Class', 'Name'], #行索引
value_vars = ['Chinese', 'Math'], # 将这俩个列索引变成列的值
var_name = 'Subject', # 上面变成列的列名字
value_name = 'Grade') #变化后的列索引名
df_melted
现在如果列中包含了交叉类别,比如期中期末的类别和语文数学的类别,那么想要把
values_name
对应的Grade
扩充为两列分别对应语文分数和数学分数,只把期中期末的信息压缩,这种需求下就要使用wide_to_long
函数来完成。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zfIIbBUr-1681776922743)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647337487641.png)]
就是说 列名中含有交叉组合的元素,我们可以把相同的部分提取出来变成新的两列,不同的部分拿出来变成索引
分割符后面的公共部分列名会提出来,分隔符前面为新增列名并保存分隔符后面的列的值
#加一个前缀名,即获得一个新的列,就能把要提取出来的列的值放进去
pd.wide_to_long(df,
stubnames=['Chinese', 'Math'],新增的两列
i = ['Class', 'Name'], 索引
j='Examination', 新增的索引
sep='_', #列名分割符
suffix='.+')
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Bc9uoQdg-1681776922747)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647337629715.png)]
swaplevel
或者reorder_levels
进行索引内部的层交换,下面就要讨论行列索引之间行列索引之间的交换,由于这种交换带来了DataFrame
维度上的变化,因此属于变形操作。在第一节中提到的4种变形函数与其不同之处在于,它们都属于某一列或几列元素元素和列索引列索引之间的转换,而不是索引之间的转换。
#构造
df = pd.DataFrame(np.ones((4,2)),
index = pd.Index([('A', 'cat', 'big'),
('A', 'dog', 'small'),
('B', 'cat', 'big'),
('B', 'dog', 'small')]),
columns=['col_1', 'col_2'])
unstack的主要参数是移动的层号,默认转化最内层,移动到列索引的最内层,同时支持同时转化多个层:
df.unstack(0/1/2)
df.unstack([0,2])
与unstack
相反,stack
的作用就是把列索引的层压入行索引,其用法完全类似
df.stack(0/1/2)
变换完之后,记得reset_index(), 如果想改变列的位置,sort_index([‘往后移的列(想往前移的列的前面的列’])
get_dummies
是用于特征构建的重要函数之一,其作用是把类别特征转为指示变量。例如,对年级一列转为指示变量,属于某一个年级的对应列标记为1,否则为0:
pd.get_dummies(df.Grade).head()
merge函数基于
on=' ',how=' '
, on是指定根据哪一个公共列连接,how是根据df1,还是df2 , 左右其实就是代码书写的顺序[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-okHRppfy-1681776922748)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647346037176.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QTFgKoIA-1681776922749)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647346026597.png)]
如果两个表中想要连接的列不具备相同的列名,可以通过
left_on
和right_on
指定:df1 = pd.DataFrame({'df1_name':['San Zhang','Si Li'], 'Age':[20,30]}) df2 = pd.DataFrame({'df2_name':['Si Li','Wu Wang'], 'Gender':['F','M']}) df1.merge(df2, left_on='df1_name', right_on='df2_name', how='left')
如果两个表中的列出现了重复的列名,那么可以通过
suffixes
参数指定。例如合并考试成绩的时候,第一个表记录了语文成绩,第二个是数学成绩:df1 = pd.DataFrame({'Name':['San Zhang'],'Grade':[70]}) df2 = pd.DataFrame({'Name':['San Zhang'],'Grade':[80]}) df1.merge(df2, on='Name', how='left', suffixes=['_Chinese','_Math'])
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-thVerRQB-1681776922750)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647346225585.png)]
在某些时候出现重复元素是麻烦的
例如两位同学来自不同的班级,但是姓名相同,这种时候就要指定on
参数为多个列使得正确连接:
df1.merge(df2, on='Name', how='left') # 错误的结果
df1.merge(df2, on=['Name', 'Class'], how='left') # 正确的结果
从上面的例子来看,在进行基于唯一性的连接下,如果键不是唯一的,那么结果就会产生问题。举例中的行数很少,但如果实际数据中有几十万到上百万行的进行合并时,如果想要保证唯一性,除了用
duplicated
检查是否重复外,merge
中也提供了validate
参数来检查连接的唯一性模式。这里共有三种模式,即一对一连接
1:1
,一对多连接1:m
,多对一连接m:1
连接,第一个是指左右表的键都是唯一的,后面两个分别指左表键唯一和右表键唯一。直接用
validate=‘1:m’
所谓索引连接,就是把索引当作键,因此这和值连接本质上没有区别,
pandas
中利用join
函数来处理索引连接,它的参数选择要少于merge
,除了必须的on
和how
之外,可以对重复的列指定左右后缀
lsuffix
和rsuffix
。其中,
on
参数指索引名,单层索引时省略参数表示按照当前索引连接。df1.join(df2, how='left') df1.join(df2, how='left', lsuffix='_Chinese', rsuffix='_Math')
有时候用户并不关心以哪一列为键来合并,只是希望把两个表或者多个表按照纵向或者横向拼接,为这种需求,
pandas
中提供了concat
函数来实现。在
concat
中,最常用的有三个参数,它们是axis, join, keys
,分别表示拼接方向,连接形式,以及在新表中指示来自于哪一张旧表的名字。这里需要特别注意,join
和keys
与之前提到的join
函数和键的概念没有任何关系。在默认状态下的
axis=0
,表示纵向拼接多个表,常常用于多个样本的拼接;而
axis=1
表示横向拼接多个表,常用于多个字段或特征的拼接。
虽然说
concat
是处理关系型合并的函数,但是它仍然是关于索引进行连接的。纵向拼接会根据列索引对齐,默认状态下
join=outer
,表示保留所有的列,并将不存在的值设为缺失;
join=inner
,表示保留两个表都出现过的列。横向拼接则根据行索引对齐,join
参数可以类似设置。
**注意!!!,当确认要使用多表直接的方向合并时,尤其是横向的合并,可以先用reset_index
方法恢复默认整数索引再进行合并,防止出现由索引的误对齐和重复索引的笛卡尔积带来的错误结果。 **
最后,keys
参数的使用场景在于多个表合并后,用户仍然想要知道新表中的数据来自于哪个原表,这时可以通过keys
参数产生多级索引进行标记。例如,第一个表中都是一班的同学,而第二个表中都是二班的同学,可以使用如下方式合并:
df1 = pd.DataFrame({'Name':['San Zhang','Si Li'], 'Age':[20,21]})
df2 = pd.DataFrame({'Name':['Wu Wang'],'Age':[21]})
pd.concat([df1, df2], keys=['one', 'two'])
利用concat
可以实现多个表之间的方向拼接,如果想要把一个序列追加到表的行末或者列末,则可以分别使用append
和assign
方法。
在append
中,如果原表是默认整数序列的索引,那么可以使用ignore_index=True
对新序列对应的索引自动标号,否则必须对Series
指定name
属性。
s = pd.Series(['Wu Wang', 21], index = df1.columns)
df1.append(s,ignore_index=True)
对于assign
而言,虽然可以利用其添加新的列,但一般通过df['new_col'] = ...
的形式就可以等价地添加新列。同时,使用[]
修改的缺点是它会直接在原表上进行改动,而assign
返回的是一个临时副本:
s = pd.Series([80, 90])
df1.assign(Grade=s)
注意最后一列是"0:00:00"还是"00:00:00",加了用户id,时间在第5列
最优解: df.fillna(df['00:00:00'],inplace) 用最后一列的非空值去填补0:00:00的空值
def reset_table(df_,length):
ddf= df_.iloc[length:,:]
del ddf["00"]
ddf.insert(5,"0:00",ddf["00:00:00"])
del ddf["00:00:00"]
ddf.rename(columns={"0:00":"0:00:00"},inplace=True)
rdf = df_.iloc[:length-1,:]
del rdf["00:00:00"]
rdf.rename(columns={"00":"0:00:00"},inplace=True)
df_1 = pd.concat([ddf,rdf],axis=0)
return df_1
col_name=df3.columns.tolist()
col_name[5] ="00"
df3.columns = col_name
reset_table(df3,14525)
-----
merge = pd.concat([df,df1,df2,df3,df4,df5],axis=0)
col_name=merge.columns.tolist()
col_name[4] ="00"
merge.columns = col_name
df7=reset_table(merge,len(df))
-----
def get_userid(df):
j=0
i=0
while(i!=len(df)):
df.iloc[i,0] = get_user_id(df.iloc[i,2])
j=j+1
i=i+1
return df
def get_user_id(v):
for i,j in name_dict.items():
if j==v:
return i
str
对象是定义在Index
或Series
上的属性,专门用于处理每个元素的文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其str
对象。
在Python标准库中也有str
模块,为了使用上的便利,有许多函数的用法pandas
照搬了它的设计,例如字母转为大写的操作:
var = 'abcd'
str.upper(var) # Python内置str模块
s.str.upper() # pandas中str对象上的upper方法
对于str对象而言,可理解为其对字符串进行了序列化的操作,例如在一般的字符串中,通过[]可以取出某个位置的元素:
var[0]
var[-1: 0: -2]
s.str[0]
最后需要注意的是,对于全体元素为数值类型的序列,即使其类型为object
或者category
也不允许直接使用str
属性。如果需要把数字当成string
类型处理,可以使用astype
强制转换为string
类型的Series
:
s = pd.Series([12, 345, 6789])
s.astype('string').str[1]
str.split
能够把字符串的列进行拆分,其中第一个参数为正则表达式,可选参数包括从左到右的最大拆分次数n
,是否展开为多个列expand
。
s = pd.Series(['上海市黄浦区方浜中路249号', '上海市宝山区密山路5号'])
s.str.split('[市区路]')
s.str.split('[市区路]', n=2, expand=True)
不拆成列,就返回列表 ; 拆成列就一个值一个列
关于合并一共有两个函数,分别是str.join
和str.cat
。
str.join
表示用某个连接符把Series
中的字符串列表连接起来,如果列表中出现了非字符串元素则返回缺失值:
#值由元素列表构成
s = pd.Series([['a','b'], [1, 'a'], [['a', 'b'], 'c']])
s.str.join('-')
str.cat
用于合并两个序列,主要参数为连接符sep
、连接形式join
以及缺失值替代符号na_rep
,其中连接形式默认为以索引为键的左连接。
s1 = pd.Series(['a','b'])
s2 = pd.Series(['cat','dog'])
s1.str.cat(s2,sep='-')
s2.index = [1, 2]
s1.str.cat(s2, sep='-', na_rep='?', join='outer')
str.contains
返回了每个字符串是否包含正则模式的布尔序列
s = pd.Series(['my cat', 'he is fat', 'railway station'])
s.str.contains('\s\wat')
s.str.startswith('my')
s.str.match('m|h')
str.replace
和replace
并不是一个函数,在使用字符串替换时应当使用前者。
s = pd.Series(['a_1_b','c_?'])
s.str.replace('\d|\?', 'new', regex=True)
提取既可以认为是一种返回具体元素(而不是布尔值或元素对应的索引位置)的匹配操作,也可以认为是一种特殊的拆分操作。前面提到的str.split
例子中会把分隔符去除,这并不是用户想要的效果,这时候就可以用str.extract
进行提取:
pat = '(\w+市)(\w+区)(\w+路)(\d+号)'
s.str.extract(pat)
通过子组的命名,可以直接对新生成DataFrame
的列命名:
pat = '(?P<市名>\w+市)(?P<区名>\w+区)(?P<路名>\w+路)(?P<编号>\d+号)'
s.str.extract(pat)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mCoP3M2h-1681776922752)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647418651419.png)]
str.extractall
不同于str.extract
只匹配一次,它会把所有符合条件的模式全部匹配出来,如果存在多个结果,则以多级索引的方式存储:
s = pd.Series(['A135T15,A26S5','B674S2,B25T6'], index = ['my_A','my_B'])
pat = '[A|B](\d+)[T|S](\d+)'
s.str.extractall(pat)
pat_with_name = '[A|B](?P\d+)[T|S](?P\d+)'
s.str.extractall(pat_with_name)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8UQO0jts-1681776922754)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647418836432.png)]
upper, lower, title, capitalize, swapcase , strip, rstrip, lstrip
s.str.upper()
这里着重需要介绍的是pd.to_numeric
方法,它虽然不是str
对象上的方法,但是能够对字符格式的数值进行快速转换和筛选。
其主要参数包括errors
和downcast
分别代表了非数值的处理模式和转换类型。
其中,对于不能转换为数值的有三种errors
选项,
raise, coerce, ignore
分别表示直接报错、设为缺失以及保持原来的字符串。
在数据清洗时,可以利用coerce
的设定,快速查看非数值型的行:
s[pd.to_numeric(s, errors='coerce').isna()]
count
和len
的作用分别是返回出现正则模式的次数和字符串的长度:
s = pd.Series(['cat rat fat at', 'get feed sheet heat'])
s.str.count('[r|f]at|ee')
s.str.len()
对于填充型函数而言,pad
是最灵活的,它可以选定字符串长度、填充的方向和填充内容:
s = pd.Series(['a','b','c'])
s.str.pad(5,'left/right/both','*')
在pandas
中提供了category
类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用astype
方法。
s = df.Grade.astype('category')
s.head()
在一个分类类型的Series
中定义了cat
对象,它和上一章中介绍的str
对象类似,定义了一些属性和方法来进行分类类别的操作。
对于一个具体的分类,有两个组成部分,其一为类别的本身,它以Index
类型存储,其二为是否有序,它们都可以通过cat
的属性被访问:
s.cat.categories
s.cat.ordered
另外,每一个序列的类别会被赋予唯一的整数编号,它们的编号取决于cat.categories中的顺序,该属性可以通过codes访问:
s.cat.codes.head()
通过cat
对象的categories
属性能够完成对类别的查询,那么应该如何进行“增改查删”的其他三个操作呢?
在第三章中曾提到,索引 Index
类型是无法用 index_obj[0] = item
来修改的,而 categories
被存储在 Index
中,因此 pandas
在 cat
属性上定义了若干方法来达到相同的目的。
s = s.cat.add_categories('Graduate') # 增加一个毕业生类别
s = s.cat.remove_categories('Freshman')
s = s.cat.set_categories(['Sophomore','PhD']) # 新类别为大二学生和博士
s = s.cat.remove_unused_categories() # 移除了未出现的博士生类别
s = s.cat.rename_categories({'Sophomore':'本科二年级学生'})
有序类别和无序类别可以通过as_unordered
和reorder_categories
互相转化,需要注意的是后者传入的参数必须是由当前序列的无序类别构成的列表,不能够增加新的类别,也不能缺少原来的类别,并且必须指定参数ordered=True
,否则方法无效。
例如,对年级高低进行相对大小的类别划分,然后再恢复无序状态:
s = df.Grade.astype('category')
s = s.cat.reorder_categories(['Freshman', 'Sophomore', 'Junior', 'Senior'],ordered=True)
s.cat.as_unordered().head()
【NOTE】类别不得直接修改
如果不想指定ordered=True参数,那么可以先用s.cat.as_ordered()转化为有序类别,再利用reorder_categories进行具体的相对大小调整。
在第二章中,曾提到了字符串和数值类型序列的排序,此时就要说明分类变量的排序:只需把列的类型修改为category
后,再赋予相应的大小关系,就能正常地使用sort_index
和sort_values
。
例如,对年级进行排序:
df.Grade = df.Grade.astype('category')
df.Grade = df.Grade.cat.reorder_categories(['Freshman', 'Sophomore', 'Junior', 'Senior'],ordered=True)
df.sort_values('Grade').head() # 值排序
df.set_index('Grade').sort_index().head() # 索引排序
由于序的建立,因此就可以进行比较操作。分类变量的比较操作分为两类,第一种是==
或!=
关系的比较,比较的对象可以是标量或者同长度的Series
(或list
),第二种是>,>=,<,<=
四类大小关系的比较,比较的对象和第一种类似,但是所有参与比较的元素必须属于原序列的categories
,同时要和原序列具有相同的索引
res1 = df.Grade == 'Sophomore'
res3 = df.Grade <= 'Sophomore'
res4 = df.Grade <= df.Grade.sample(frac=1).reset_index(drop=True) # 打乱后比较
res4.head()
区间是一种特殊的类别,在实际数据分析中,区间序列往往是通过
cut
和qcut
方法进行构造的,这两个函数能够把原序列的数值特征进行装箱,即用区间位置来代替原来的具体数值。
首先介绍cut
的常见用法:
其中,最重要的参数是bins
,如果传入整数n
,则代表把整个传入数组的按照最大和最小值等间距地分为n
段。由于区间默认是左开右闭,需要在调整时把最小值包含进去,在pandas
中的解决方案是在值最小的区间左端点再减去0.001*(max-min)
,因此如果对序列[1,2]
划分为2个箱子时,第一个箱子的范围(0.999,1.5]
,第二个箱子的范围是(1.5,2]
。如果需要指定左闭右开时,需要把right
参数设置为False
,相应的区间调整方法是在值最大的区间右端点再加上0.001*(max-min)
。
s = pd.Series([1,2])
pd.cut(s, bins=2)
pd.cut(s, bins=2, right=False)
#指定分割点
pd.cut(s, bins=[-np.infty, 1.2, 1.8, 2.2, np.infty])
另外两个常用参数为labels
和retbins
,分别代表了区间的名字和是否返回分割点(默认不返回):
s = pd.Series([1,2])
res = pd.cut(s, bins=2, labels=['small', 'big'], retbins=True)
res[0] #分割标签
res[1] #分割点
从用法上来说,qcut
和cut
几乎没有差别,只是把bins
参数变成的q
参数,qcut
中的q
是指quantile
。这里的q
为整数n
时,指按照n
等分位数把数据分箱,还可以传入浮点列表指代相应的分位数分割点。
s = df.Weight
pd.qcut(s, q=3).head()
pd.qcut(s, q=[0,0.2,0.8,1]).head()
对于某一个具体的区间而言,其具备三个要素,即左端点、右端点和端点的开闭状态,其中开闭状态可以指定right, left, both, neither
中的一类:
my_interval = pd.Interval(0, 1, 'right')
my_interval
其属性包含了mid, length, right, left, closed,
,分别表示中点、长度、右端点、左端点和开闭状态
使用in
可以判断元素是否属于区间
使用overlaps
可以判断两个区间是否有交集:
0.5 in my_interval
my_interval_2 = pd.Interval(0.5, 1.5, 'left')
my_interval.overlaps(my_interval_2)
一般而言,pd.IntervalIndex
对象有四类方法生成,分别是from_breaks, from_arrays, from_tuples, interval_range
,它们分别应用于不同的情况:
from_breaks
的功能类似于cut
或qcut
函数,只不过后两个是通过计算得到的分割点,而前者是直接传入自定义的分割点:pd.IntervalIndex.from_breaks([1,3,6,10], closed='both')
from_arrays
是分别传入左端点和右端点的列表,适用于有交集并且知道起点和终点的情况:pd.IntervalIndex.from_arrays(left = [1,3,6,10], right = [5,4,9,11], closed = 'neither')
from_tuples
传入的是起点和终点元组构成的列表:pd.IntervalIndex.from_tuples([(1,5),(3,4),(6,9),(10,11)], closed='neither')
interval_range
中的start, end, periods, freq
参数就对应了这四个量,从而就能构造出相应的区间:pd.interval_range(start=1,end=5,periods=8)
pd.interval_range(end=5,periods=8,freq=0.5)
除此之外,如果直接使用pd.IntervalIndex([...], closed=...)
,把Interval
类型的列表组成传入其中转为区间索引,那么所有的区间会被强制转为指定的closed
类型,因为pd.IntervalIndex
只允许存放同一种开闭区间的Interval
对象。
pd.IntervalIndex([my_interval, my_interval_2], closed='left')
IntervalIndex
上也定义了一些有用的属性和方法。同时,如果想要具体利用cut
或者qcut
的结果进行分析,那么需要先将其转为该种索引类型:
id_interval = pd.IntervalIndex(pd.cut(s, 3))
id_interval[:3]
与单个Interval类型相似,IntervalIndex有若干常用属性:
left, right, mid, length
分别表示左右端点、两端点均值和区间长度。
id_demo.left/right/mid/length
IntervalIndex还有两个常用方法,包括contains和overlaps,分别指逐个判断每个区间是否有交集
id_demo.contains(4)
id_demo.overlaps(pd.Interval(40,60))
df.cut
在object
类型和category
类型下使用nunique
函数,并比较它们的性能。Fair, Good, Very Good, Premium, Ideal
,纯净度有八个等级,由次到好分别是I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF
,请对切割质量按照由好到次的顺序排序,相同切割质量的钻石,按照纯净度进行由次到好的排序。cut, clarity
这两列按照由好到次的顺序,映射到从0到n-1的整数,其中n表示类别的个数。Very Low, Low, Mid, High, Very High
,并把按这两种分箱方法得到的category
序列依次添加到原表中。df = pd.read_csv('../data/diamonds.csv')
df.cut = df.cut.astype('category').cat.reorder_categories(['Fair', 'Good', 'Very Good', 'Premium', 'Ideal'],ordered=True)
#对切割程度有序排序
#对纯净程度进行排序
df.clarity = df.clarity.astype('category').cat.reorder_categories(['I1', 'SI2', 'SI1', 'VS2', 'VS1', 'VVS2', 'VVS1', 'IF'],ordered=True)
#组合降序排序
res = df.sort_values(['cut', 'clarity'], ascending=[False, True])
res.head(3)
df.cut = df.cut.cat.reorder_categories(df.cut.cat.categories[::-1]) #df.cut.cat.categories[::-1] 让种类列表逆序排列,再根据逆序的种类排序
df.clarity = df.clarity.cat.reorder_categories(df.clarity.cat.categories[::-1])
df.cut = df.cut.cat.codes # 方法一:利用cat.codes,把分类标签转换为数值类型
clarity_cat = df.clarity.cat.categories
df.clarity = df.clarity.replace(dict(zip(clarity_cat, np.arange(len(clarity_cat)))))
# 方法二:使用replace映射,类别封装成数值索引字典,然后转换成类别
按分位数分割:
q = [0, 0.2, 0.4, 0.6, 0.8, 1]
point = [-np.infty, 1000, 3500, 5500, 18000, np.infty]
avg = df.price / df.carat
df['avg_cut'] = pd.cut(avg, bins=point, labels=['Very Low', 'Low', 'Mid', 'High', 'Very High'])
df['avg_qcut'] = pd.qcut(avg, q=q, labels=['Very Low', 'Low', 'Mid', 'High', 'Very High'])
df.head()
#查看有没有没有显示的种类
df.avg_cut.cat.categories
df.avg_cut.unique()
df.avg_cut = df.avg_cut.cat.remove_categories(['Very Low', 'Very High'])
df.avg_cut.head(3)
按照分位数分箱
interval_avg = pd.IntervalIndex(pd.qcut(avg, q=q))
右端点区间和长度
interval_avg.right.to_series().reset_index(drop=True).head(3)
左端点区间和长度
interval_avg.left.to_series().reset_index(drop=True).head(3)
第一,会出现时间戳(Date times)的概念,即’2020-9-7 08:00:00’和’2020-9-7 10:00:00’这两个时间点分别代表了上课和下课的时刻,在pandas
中称为Timestamp
。
同时,一系列的时间戳可以组成DatetimeIndex
,而将它放到Series
中后,Series
的类型就变为了datetime64[ns]
,如果有涉及时区则为datetime64[ns, tz]
,其中tz是timezone的简写。
第二,会出现时间差(Time deltas)的概念,即上课需要的时间,两个Timestamp
做差就得到了时间差,pandas中利用Timedelta
来表示。类似的,一系列的时间差就组成了TimedeltaIndex
, 而将它放到Series
中后,Series
的类型就变为了timedelta64[ns]
。
第三,会出现时间段(Time spans)的概念,即在8点到10点这个区间都会持续地在上课,在pandas
利用Period
来表示。类似的,一系列的时间段就组成了PeriodIndex
, 而将它放到Series
中后,Series
的类型就变为了Period
。
第四,会出现日期偏置(Date offsets)的概念,假设你只知道9月的第一个周一早上8点要去上课,但不知道具体的日期,那么就需要一个类型来处理此类需求。再例如,想要知道2020年9月7日后的第30个工作日是哪一天,那么时间差就解决不了你的问题,从而pandas
中的DateOffset
就出现了。同时,pandas
中没有为一列时间偏置专门设计存储类型,理由也很简单,因为需求比较奇怪,一般来说我们只需要对一批时间特征做一个统一的特殊日期偏置。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VGQctC38-1681776922755)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647523169516.png)]
由于时间段对象Period/PeriodIndex
的使用频率并不高,因此将不进行讲解,而只涉及时间戳序列、时间差序列和日期偏置的相关内容。
单个时间戳的生成利用pd.Timestamp
实现,一般而言的常见日期格式都能被成功地转换:
ts = pd.Timestamp('2020-1-1 08:10:30')
通过year, month, day, hour, min, second可以获取具体的数值:
ts.year/month/day/hour/minute/second/minute/second
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jE75ToqA-1681776922756)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647523907198.png)]
pd.Timestamp.max
pd.Timestamp.min
pd.Timestamp.max.year - pd.Timestamp.min.year
一组时间戳可以组成时间序列,可以用to_datetime
和date_range
来生成。其中,to_datetime
能够把一列时间戳格式的对象转换成为datetime64[ns]
类型的时间序列:
pd.to_datetime(['2020-1-1', '2020-1-3', '2020-1-6'])
df = pd.read_csv('../data/learn_pandas.csv')
s = pd.to_datetime(df.Test_Date)
在极少数情况,时间戳的格式不满足转换时,可以强制使用format
进行匹配:
temp = pd.to_datetime(['2020\\1\\1','2020\\1\\3'],format='%Y\\%m\\%d')
注意上面由于传入的是列表,而非pandas内部的Series,因此返回的是DatetimeIndex,如果想要转为datetime64[ns]的序列,需要显式用Series转化:
pd.Series(temp).head()
另外,还存在一种把表的多列时间属性拼接转为时间序列的to_datetime操作,此时的列名必须和以下给定的时间关键词列名一致:
df_date_cols = pd.DataFrame({'year': [2020, 2020],
'month': [1, 1],
'day': [1, 2],
'hour': [10, 20],
'minute': [30, 50],
'second': [20, 40]})
pd.to_datetime(df_date_cols)
date_range
是一种生成连续间隔时间的一种方法,其重要的参数为start, end, freq, periods
,它们分别表示开始时间,结束时间,时间间隔,时间戳个数。其中,四个中的三个参数决定了,那么剩下的一个就随之确定了。
这里要注意,开始或结束日期如果作为端点则它会被包含:
pd.date_range('2020-1-1','2020-1-21', freq='10D') # 包含
最后,要介绍一种改变序列采样频率的方法asfreq
,它能够根据给定的freq
对序列进行类似于reindex
的操作:
s = pd.Series(np.random.rand(5), index=pd.to_datetime(['2020-1-%d'%i for i in range(1,10,2)]))
s.asfreq('D') #精确到天数
s.asfreq('12H')#精确到小时
前面提到了datetime64[ns]
本质上可以理解为一个大整数,对于一个该类型的序列,可以使用max, min, mean
,来取得最大时间戳、最小时间戳和“平均”时间戳。
如同category, string
的序列上定义了cat, str
来完成分类数据和文本数据的操作,在时序类型的序列上定义了dt
对象来完成许多时间序列的相关操作。这里对于datetime64[ns]
类型而言,可以大致分为三类操作:取出时间相关的属性、判断时间戳是否满足条件、取整操作。
第一类操作的常用属性包括:date, time, year, month, day, hour, minute, second, microsecond, nanosecond, dayofweek, dayofyear, weekofyear, daysinmonth, quarter
,其中daysinmonth, quarter
分别表示该月一共有几天和季度。
在这些属性中,经常使用的是dayofweek
,它返回了周中的星期情况,周一为0、周二为1,以此类推:
s.dt.dayofweek
此外,可以通过month_name, day_name返回英文的月名和星期名,注意它们是方法而不是属性:
s.dt.month_name()
s.dt.day_name()
第二类判断操作主要用于测试是否为月/季/年的第一天或者最后一天:
s.dt.is_year_start # 还可选 is_quarter/month_start
s.dt.is_year_end # 还可选 is_quarter/month_end
第三类的取整操作包含round, ceil, floor
,它们的公共参数为freq
,常用的包括H, min, S
(小时、分钟、秒),所有可选的freq
可参考此处
s = pd.Series(pd.date_range('2020-1-1 20:35:00', '2020-1-1 22:35:00', freq='45min'))
s
s.dt.round/ceil/floor('1H') 取整保留到小时
一般而言,时间戳序列作为索引使用。
如果想要选出某个子时间戳序列,
第一类方法是利用dt
对象和布尔条件联合使用,
另一种方式是利用切片,后者常用于连续时间戳。下面,举一些例子说明:
s = pd.Series(np.random.randint(2,size=366), index=pd.date_range('2020-01-01','2020-12-31'))
idx = pd.Series(s.index).dt #日期索引器
Example1:每月的第一天或者最后一天
s[(idx.is_month_start|idx.is_month_end).values].head()
Example2:双休日
s[idx.dayofweek.isin([5,6]).values].head()
Example3:取出单日值
s['2020-01-01']
s['20200101'] # 自动转换标准格式
Example4:取出七月
s['2020-07'].head()
Example5:取出5月初至7月15日
s['2020-05':'2020-7-15'].head()
正如在第一节中所说,时间差可以理解为两个时间戳的差,这里也可以通过pd.Timedelta
来构造
pd.Timestamp('20200102 08:00:00')-pd.Timestamp('20200101 07:35:00')
生成时间差序列的主要方式是pd.to_timedelta
,其类型为timedelta64[ns]
:
s = pd.to_timedelta(df.Time_Record)
s.head()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3RJpuurZ-1681776922757)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647526158504.png)]
与date_range
一样,时间差序列也可以用timedelta_range
来生成,它们两者具有一致的参数:
pd.timedelta_range('0s', '1000s', freq='6min')
pd.timedelta_range('0s', '1000s', periods=3)
对于Timedelta
序列,同样也定义了dt
对象,上面主要定义了的属性包括days, seconds, mircroseconds, nanoseconds
,它们分别返回了对应的时间差特征。需要注意的是,这里的seconds
不是指单纯的秒,而是对天数取余后剩余的秒数:
s.dt.seconds.head()
如果不想对天数取余而直接对应秒数,可以使用total_seconds
s.dt.total_seconds().head()
与时间戳序列类似,取整函数也是可以在dt对象上使用的:
pd.to_timedelta(df.Time_Record).dt.round('min').head()
时间差支持的常用运算有三类:与标量的乘法运算、与时间戳的加减法运算、与时间差的加减法与除法运算:
td1 = pd.Timedelta(days=1)
td2 = pd.Timedelta(days=3)
ts = pd.Timestamp('20200101')
td1 * 2
td2 - td1
ts + td1
这些运算都可以移植到时间差的序列上:
td1 = pd.timedelta_range(start='1 days', periods=5)
td2 = pd.timedelta_range(start='12 hours', freq='2H', periods=5)
ts = pd.date_range('20200101', '20200105')
td1 * 5
td1 + pd.Timestamp('20200101')
td1 + ts # 逐个相加
日期偏置是一种和日历相关的特殊时间差,例如回到第一节中的两个问题:如何求2020年9月第一个周一的日期,以及如何求2020年9月7日后的第30个工作日是哪一天。
pd.Timestamp('20200831') + pd.offsets.WeekOfMonth(week=0,weekday=0)
pd.Timestamp('20200907') + pd.offsets.BDay(30)
从上面的例子中可以看到,Offset
对象在pd.offsets
中被定义。当使用+
时获取离其最近的下一个日期,当使用-
时获取离其最近的上一个日期:
d.Timestamp('20200831') - pd.offsets.WeekOfMonth(week=0,weekday=0)
pd.Timestamp('20200907') - pd.offsets.BDay(30)
pd.Timestamp('20200907') + pd.offsets.MonthEnd()
常用的日期偏置如下可以查阅这里的文档描述。在文档罗列的Offset
中,需要介绍一个特殊的Offset
对象CDay
,其中的holidays, weekmask
参数能够分别对自定义的日期和星期进行过滤,
holidays传入了需要过滤的日期列表,weekmask
传入的是三个字母的星期缩写构成的星期字符串,其作用是只保留字符串中出现的星期
my_filter = pd.offsets.CDay(n=1,weekmask='Wed Fri',holidays=['20200109'])
dr = pd.date_range('20200108', '20200111')
dr.to_series().dt.dayofweek
#结果显示中,没有了星期三和星期五,不计算这俩天
前面提到了关于date_range
的freq
取值可用Offset
对象,同时在pandas
中几乎每一个Offset
对象绑定了日期偏置字符串(frequencies strings/offset aliases
),可以指定Offset
对应的字符串来替代使用。下面举一些常见的例子。
pd.date_range('20200101','20200331', freq='MS') # 只生成月初
pd.date_range('20200101','20200331', freq='M') # 只生成月末
pd.date_range('20200101','20200110', freq='B') # 工作日
pd.date_range('20200101','20200201', freq='W-MON') # 周一,W代表week
所谓时序的滑窗函数,即把滑动窗口用freq
关键词代替
下面给出一个具体的应用案例:在股票市场中有一个指标为BOLL
指标,它由中轨线、上轨线、下轨线这三根线构成,具体的计算方法分别是N
日均值线、N
日均值加两倍N
日标准差线、N
日均值减两倍N
日标准差线。利用rolling
对象计算N=30
的BOLL
指标可以如下写出:
import matplotlib.pyplot as plt
idx = pd.date_range('20200101', '20201231', freq='B')
np.random.seed(2020)
data = np.random.randint(-1,2,len(idx)).cumsum() # 随机游动构造模拟序列
s = pd.Series(data,index=idx)
s.head()
r = s.rolling('30D') #30天间隔的滑动窗口
plt.plot(s)
plt.title('BOLL LINES')
plt.plot(r.mean())
plt.plot(r.mean()+r.std()*2)
plt.plot(r.mean()-r.std()*2)
对于shift
函数而言,作用在datetime64
为索引的序列上时,可以指定freq
单位进行滑动:
s.shift(freq='50D').head()
另外,datetime64[ns]
的序列进行diff
后就能够得到timedelta64[ns]
的序列,这能够使用户方便地观察有序时间序列的间隔:
my_series = pd.Series(s.index)
my_series.diff(1).head()
重采样对象resample
和第四章中分组对象groupby
的用法类似,前者是针对时间序列的分组计算而设计的分组对象。
例如,对上面的序列计算每10天的均值:
s.resample('10D').mean().head()
同时,如果没有内置定义的处理函数,可以通过apply
方法自定义:
s.resample('10D').apply(lambda x:x.max()-x.min()).head() # 极差
在resample
中要特别注意组边界值的处理情况,默认情况下起始值的计算方法是从最小值时间戳对应日期的午夜00:00:00
开始增加freq
,直到不超过该最小时间戳的最大时间戳,由此对应的时间戳为起始值,然后每次累加freq
参数作为分割结点进行分组,区间情况为左闭右开。
dx = pd.date_range('20200101 8:26:35', '20200101 9:31:58', freq='77s')
data = np.random.randint(-1,2,len(idx)).cumsum()
s = pd.Series(data,index=idx)
s.head()
下面对应的第一个组起始值为08:24:00,其是从当天0点增加72个freq=7 min得到的,如果再增加一个freq则超出了序列的最小时间戳08:26:35:
s.resample('7min').mean().head() #从8:24开始
有时候,用户希望从序列的最小时间戳开始依次增加freq
进行分组,此时可以指定origin
参数为start
:
s.resample('7min', origin='start').mean().head()
在返回值中,要注意索引一般是取组的第一个时间戳,但M, A, Q, BM, BA, BQ, W
这七个是取对应区间的最后一个时间戳:
Datetime, Time
合并为一个时间列Datetime
,同时把它作为索引后排序。bins=50
。Series
:df['Date'] = df.Data.str.extract('([/|\w]+\s).+')[0]+df.Time
df['Date'] = pd.to_datetime(df['Date'])
df = df.drop(columns=['Data','Time']).set_index('Date').sort_index()
s = df.index.to_series().reset_index(drop=True).diff().dt.total_seconds()
max_3 = s.nlargest(3).index
df.index[max_3.union(max_3-1)]
res = s.mask((s>s.quantile(0.99))|(s
# df.Date = pd.to_datetime(df.Date)
df_grape = df.query("Fruit == 'Grape'")
res = df_grape.groupby([np.where(df_grape.Date.dt.day<=15,'First', 'Second'), #利用np.where把一个月分成两组,给出命名
df_grape.Date.dt.month])['Sale'].mean().to_frame().unstack(0) .droplevel(0,axis=1)
#unstack把first和second转成列索引,droplevel删除外层索引
res = (res.First/res.Second).rename_axis('Month')
res.head()
df[df.Date.dt.is_month_end].query("Fruit == 'Pear'").groupby('Date').Sale.sum().head()
df[df.Date.isin(pd.date_range('20190101', '20191231',freq='BM'))].query("Fruit == 'Pear'").groupby('Date').Sale.mean().head()
#选出时间,按照月份分组,取出每月的时间的最后5个
target_dt = df.drop_duplicates().groupby(df.Date.drop_duplicates().dt.month)['Date'].nlargest(5).reset_index(drop=True)
res = df.set_index('Date').loc[target_dt].reset_index().query("Fruit == 'Apple'")
#最后5天苹果的销售量
res = res.groupby(res.Date.dt.month)['Sale'].mean().rename_axis('Month')
#苹果的销售记录再按月分类,取均值
res.head()
month_order = ['January','February','March','April','May','June','July','August','September','October','November','December']
week_order = ['Mon','Tue','Wed','Thu','Fri','Sat','Sum']
#把月份的名字分类然后转化为自定义的月份名字
group1 = df.Date.dt.month_name().astype('category').cat.reorder_categories(month_order, ordered=True)
group2 = df.Fruit
# 生成序号数值和字符串的映射字典,把每周每天的名字转化为自定义的名字
group3 = df.Date.dt.dayofweek.replace(dict(zip(range(7),week_order))).astype('category').cat.reorder_categories(week_order, ordered=True)
res = df.groupby([group1, group2,group3])['Sale'].count().to_frame().unstack(0).droplevel(0,axis=1)
res.head()
df_apple = df[(df.Fruit=='Apple')&(~df.Date.dt.dayofweek.isin([5,6]))] # 非工作日的苹果销售记录
s = pd.Series(df_apple.Sale.values,index=df_apple.Date).groupby('Date').sum() # 对苹果销售记录,构造Series
res = s.rolling('10D').mean().reindex(pd.date_range('20190101','20191231')).fillna(method='ffill') #重新构造连续时间戳,空值前向填充
res.head()
现在我们来深入看一下figure的组成。通过一张figure解剖图,我们可以看到一个完整的matplotlib图像通常会包括以下四个层级,这些层级也被称为容器(container),下一节会详细介绍。在matplotlib的世界中,我们将通过各种命令方法来操纵图像中的每一个部分,从而达到数据可视化的最终效果,一副完整的图像实际上是各类子元素的集合。
Figure
:顶层级,用来容纳所有绘图元素Axes
:matplotlib宇宙的核心,容纳了大量元素用来构造一幅幅子图,一个figure可以由一个或多个子图组成Axis
:axes的下属层级,用于处理所有和坐标轴,网格有关的元素Tick
:axis的下属层级,用来处理所有和刻度有关的元素[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oc5bW0xi-1681776922758)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1648899475619.png)]
matplotlib提供了两种最常用的绘图接口,在最后的思考题中请思考两种模式的主要区别
#第一种
x = np.linspace(0, 2, 100)
fig, ax = plt.subplots()
ax.plot(x, x, label='linear')
ax.plot(x, x**2, label='quadratic')
ax.plot(x, x**3, label='cubic')
ax.set_xlabel('x label')
ax.set_ylabel('y label')
ax.set_title("Simple Plot")
ax.legend()
#第二种
x = np.linspace(0, 2, 100)
plt.plot(x, x, label='linear')
plt.plot(x, x**2, label='quadratic')
plt.plot(x, x**3, label='cubic')
plt.xlabel('x label')
plt.ylabel('y label')
plt.title("Simple Plot")
plt.legend()
matplotlib提供了两种最常用的绘图接口,在最后的思考题中请思考两种模式的主要区别
- 显式创建figure和axes,在上面调用绘图方法,也被称为OO模式(object-oriented style)
- 依赖pyplot自动创建figure和axes,并绘图
# step1 准备数据
x = np.linspace(0, 2, 100)
y = x**2
# step2 设置绘图样式,这一模块的扩展参考第五章进一步学习,这一步不是必须的,样式也可以在绘制图像是进行设置
mpl.rc('lines', linewidth=4, linestyle='-.')
# step3 定义布局, 这一模块的扩展参考第三章进一步学习
fig, ax = plt.subplots()
# step4 绘制图像, 这一模块的扩展参考第二章进一步学习
ax.plot(x, y, label='linear')
# step5 添加标签,文字和图例,这一模块的扩展参考第四章进一步学习
ax.set_xlabel('x label')
ax.set_ylabel('y label')
ax.set_title("Simple Plot")
ax.legend()
matplotlib的原理或者说基础逻辑是,用Artist对象在画布(canvas)上绘制(Render)图形。
就和人作画的步骤类似:
所以matplotlib有三个层次的API:
matplotlib.backend_bases.FigureCanvas
代表了绘图区,所有的图像都是在绘图区完成的
matplotlib.backend_bases.Renderer
代表了渲染器,可以近似理解为画笔,控制如何在 FigureCanvas 上画图。
matplotlib.artist.Artist
代表了具体的图表组件,即调用了Renderer的接口在Canvas上作图。
前两者处理程序和计算机的底层交互的事项,第三项Artist就是具体的调用接口来做出我们想要的图,比如图形、文本、线条的设定。所以通常来说,我们95%的时间,都是用来和matplotlib.artist.Artist类打交道的。
Artist有两种类型:primitives
和containers
。
primitive
是基本要素,它包含一些我们要在绘图区作图用到的标准图形对象,如曲线Line2D,文字text,矩形Rectangle,图像image等。
container
是容器,即用来装基本要素的地方,包括图形figure、坐标系Axes和坐标轴Axis。他们之间的关系如下图所示
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jifQyhBI-1681776922759)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1648899793084.png)]
可视化中常见的artist类可以参考下图这张表格,解释下每一列的含义。
第一列表示matplotlib中子图上的辅助方法,可以理解为可视化中不同种类的图表类型,如柱状图,折线图,直方图等,这些图表都可以用这些辅助方法直接画出来,属于更高层级的抽象。
第二列表示不同图表背后的artist类,比如折线图方法plot
在底层用到的就是Line2D
这一artist类。
第三列是第二列的列表容器,例如所有在子图中创建的Line2D
对象都会被自动收集到ax.lines
返回的列表中。
下一节的具体案例更清楚地阐释了这三者的关系,其实在很多时候,我们只用记住第一列的辅助方法进行绘图即可,而无需关注具体底层使用了哪些类,但是了解底层类有助于我们绘制一些复杂的图表,因此也很有必要了解。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AQNc5onc-1681776922760)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1648899878845.png)]
各容器中可能会包含多种基本要素-primitives
, 所以先介绍下primitives,再介绍容器。
本章重点介绍下 primitives
的几种类型:曲线-Line2D,矩形-Rectangle,多边形-Polygon,图像-image
在matplotlib中曲线的绘制,主要是通过类 matplotlib.lines.Line2D
来完成的。
matplotlib中线-line
的含义:它表示的可以是连接所有顶点的实线样式,也可以是每个顶点的标记。此外,这条线也会受到绘画风格的影响,比如,我们可以创建虚线种类的线。
它的构造函数:
class matplotlib.lines.Line2D(xdata, ydata, linewidth=None, linestyle=None, color=None, marker=None, markersize=None, markeredgewidth=None, markeredgecolor=None, markerfacecolor=None, markerfacecoloralt='none', fillstyle=None, antialiased=None, dash_capstyle=None, solid_capstyle=None, dash_joinstyle=None, solid_joinstyle=None, pickradius=5, drawstyle=None, markevery=None, **kwargs)
其中常用的的参数有:
其他详细参数可参考Line2D官方文档
介绍两种绘制直线line常用的方法:
# 1. plot方法绘制
x = range(0,5)
y1 = [2,5,7,8,10]
y2= [3,6,8,9,11]
fig,ax= plt.subplots()
ax.plot(x,y1)
ax.plot(x,y2)
print(ax.lines); # 通过直接使用辅助方法画线,打印ax.lines后可以看到在matplotlib在底层创建了两个Line2D对象
# 2. Line2D对象绘制
x = range(0,5)
y1 = [2,5,7,8,10]
y2= [3,6,8,9,11]
fig,ax= plt.subplots()
lines = [Line2D(x, y1), Line2D(x, y2,color='orange')] # 显式创建Line2D对象
for line in lines:
ax.add_line(line) # 使用add_line方法将创建的Line2D添加到子图中
ax.set_xlim(0,4)
ax.set_ylim(2, 11);
2) errorbar绘制误差折线图
pyplot里有个专门绘制误差线的功能,通过errorbar
类实现,它的构造函数:
matplotlib.pyplot.errorbar(x, y, yerr=None, xerr=None, fmt=‘’, ecolor=None, elinewidth=None, capsize=None, barsabove=False, lolims=False, uplims=False, xlolims=False, xuplims=False, errorevery=1, capthick=None, *, data=None, **kwargs)
其中最主要的参数是前几个:
fig = plt.figure()
x = np.arange(10)
y = 2.5 * np.sin(x / 20 * np.pi)
yerr = np.linspace(0.05, 0.2, 10)
plt.errorbar(x, y + 3, yerr=yerr, label='both limits (default)');
matplotlib.patches.Patch类是二维图形类,并且它是众多二维图形的父类,它的所有子类见matplotlib.patches API ,
Patch类的构造函数:
Patch(edgecolor=None, facecolor=None, color=None, linewidth=None, linestyle=None, antialiased=None, hatch=None, fill=True, capstyle=None, joinstyle=None, **kwargs)
本小节重点讲述三种最常见的子类,矩形,多边形和楔型。
Rectangle
矩形类在官网中的定义是: 通过锚点xy及其宽度和高度生成。 Rectangle本身的主要比较简单,即xy控制锚点,width和height分别控制宽和高。它的构造函数:
class matplotlib.patches.Rectangle(xy, width, height, angle=0.0, **kwargs)
在实际中最常见的矩形图是**hist直方图
和bar条形图
**。
1) hist-直方图
matplotlib.pyplot.hist(x,bins=None,range=None, density=None, bottom=None, histtype=‘bar’, align=‘mid’, log=False, color=None, label=None, stacked=False, normed=None)
下面是一些常用的参数:
2) bar-柱状图
matplotlib.pyplot.bar(left, height, alpha=1, width=0.8, color=, edgecolor=, label=, lw=3)
下面是一些常用的参数:
有两种方式绘制柱状图
Rectangle
矩形类绘制柱状图# bar绘制柱状图
y = range(1,17)
plt.bar(np.arange(16), y, alpha=0.5, width=0.5, color='yellow', edgecolor='red', label='The First Bar', lw=3);
# Rectangle矩形类绘制柱状图
fig = plt.figure()
ax1 = fig.add_subplot(111)
for i in range(1,17):
rect = plt.Rectangle((i+0.25,0),0.5,i)
ax1.add_patch(rect)
ax1.set_xlim(0, 16)
ax1.set_ylim(0, 16);
matplotlib.patches.Polygon类是多边形类。它的构造函数:
class matplotlib.patches.Polygon(xy, closed=True, **kwargs)
xy是一个N×2的numpy array,为多边形的顶点。
closed为True则指定多边形将起点和终点重合从而显式关闭多边形。
matplotlib.patches.Polygon类中常用的是fill类,它是基于xy绘制一个填充的多边形,它的定义:
matplotlib.pyplot.fill(*args, data=None, **kwargs)
参数说明 : 关于x、y和color的序列,其中color是可选的参数,每个多边形都是由其节点的x和y位置列表定义的,后面可以选择一个颜色说明符。您可以通过提供多个x、y、[颜色]组来绘制多个多边形。
# 用fill来绘制图形
x = np.linspace(0, 5 * np.pi, 1000)
y1 = np.sin(x)
y2 = np.sin(2 * x)
plt.fill(x, y1, color = "g", alpha = 0.3);
matplotlib.patches.Polygon类是多边形类。其基类是matplotlib.patches.Patch,它的构造函数:
class matplotlib.patches.Wedge(center, r, theta1, theta2, width=None, **kwargs)
一个Wedge-契形 是以坐标x,y为中心,半径为r,从θ1扫到θ2(单位是度)。
如果宽度给定,则从内半径r -宽度到外半径r画出部分楔形。wedge中比较常见的是绘制饼状图。
matplotlib.pyplot.pie语法:
matplotlib.pyplot.pie(x, explode=None, labels=None, colors=None, autopct=None, pctdistance=0.6, shadow=False, labeldistance=1.1, startangle=0, radius=1, counterclock=True, wedgeprops=None, textprops=None, center=0, 0, frame=False, rotatelabels=False, *, normalize=None, data=None)
制作数据x的饼图,每个楔子的面积用x/sum(x)表示。
其中最主要的参数是前4个:
labels = 'Frogs', 'Hogs', 'Dogs', 'Logs'
sizes = [15, 30, 45, 10]
explode = (0, 0.1, 0, 0)
fig1, ax1 = plt.subplots()
ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%', shadow=True, startangle=90)
ax1.axis('equal'); # Equal aspect ratio ensures that pie is drawn as a circle.
collections类是用来绘制一组对象的集合,collections有许多不同的子类,如RegularPolyCollection, CircleCollection, Pathcollection, 分别对应不同的集合子类型。其中比较常用的就是散点图,它是属于PathCollection子类,scatter方法提供了该类的封装,根据x与y绘制不同大小或颜色标记的散点图。 它的构造方法:
Axes.scatter(self, x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=, edgecolors=None, *, plotnonfinite=False, data=None, **kwargs)
其中最主要的参数是前5个:
# 用scatter绘制散点图
x = [0,2,4,6,8,10]
y = [10]*len(x)
s = [20*2**n for n in range(len(x))]
plt.scatter(x,y,s=s)
images是matplotlib中绘制image图像的类,其中最常用的imshow可以根据数组绘制成图像,它的构造函数:
class matplotlib.image.AxesImage(ax, cmap=None, norm=None, interpolation=None, origin=None, extent=None, filternorm=True, filterrad=4.0, resample=False, **kwargs)
imshow根据数组绘制图像
matplotlib.pyplot.imshow(X, cmap=None, norm=None, aspect=None, interpolation=None, alpha=None, vmin=None, vmax=None, origin=None, extent=None, shape=, filternorm=1, filterrad=4.0, imlim=, resample=None, url=None, *, data=None, **kwargs)
使用imshow画图时首先需要传入一个数组,数组对应的是空间内的像素位置和像素点的值,interpolation参数可以设置不同的差值方法,具体效果如下。
methods = [None, 'none', 'nearest', 'bilinear', 'bicubic', 'spline16',
'spline36', 'hanning', 'hamming', 'hermite', 'kaiser', 'quadric',
'catrom', 'gaussian', 'bessel', 'mitchell', 'sinc', 'lanczos']
grid = np.random.rand(4, 4)
fig, axs = plt.subplots(nrows=3, ncols=6, figsize=(9, 6),
subplot_kw={'xticks': [], 'yticks': []})
for ax, interp_method in zip(axs.flat, methods):
ax.imshow(grid, interpolation=interp_method, cmap='viridis')
ax.set_title(str(interp_method))
plt.tight_layout();
容器会包含一些primitives
,并且容器还有它自身的属性。
比如Axes Artist
,它是一种容器,它包含了很多primitives
,比如Line2D
,Text
;同时,它也有自身的属性,比如xscal
,用来控制X轴是linear
还是log
的。
matplotlib.figure.Figure
是Artist
最顶层的container
-对象容器,它包含了图表中的所有元素。一张图表的背景就是在Figure.patch
的一个矩形Rectangle
。 当我们向图表添加Figure.add_subplot()
或者Figure.add_axes()
元素时,这些都会被添加到Figure.axes
列表中。
fig = plt.figure()
ax1 = fig.add_subplot(211)
ax2 = fig.add_subplot(212)
for ax in fig.axes:
ax.grid(True)
Figure
也有它自己的text、line、patch、image
。你可以直接通过add primitive
语句直接添加。但是注意Figure
默认的坐标系是以像素为单位,你可能需要转换成figure坐标系:(0,0)表示左下点,(1,1)表示右上点。
Figure容器的常见属性:
Figure.patch
属性:Figure的背景矩形
Figure.axes
属性:一个Axes实例的列表(包括Subplot)
Figure.images
属性:一个FigureImages patch列表
Figure.lines
属性:一个Line2D实例的列表(很少使用)
Figure.legends
属性:一个Figure Legend实例列表(不同于Axes.legends)
Figure.texts
属性:一个Figure Text实例列表
matplotlib.axes.Axes
是matplotlib的核心。大量的用于绘图的Artist
存放在它内部,并且它有许多辅助方法来创建和添加Artist
给它自己,而且它也有许多赋值方法来访问和修改这些Artist
。
和Figure
容器类似,Axes
包含了一个patch属性,对于笛卡尔坐标系而言,它是一个Rectangle
;对于极坐标而言,它是一个Circle
。这个patch属性决定了绘图区域的形状、背景和边框。
fig = plt.figure()
ax = fig.add_subplot(111)
rect = ax.patch # axes的patch是一个Rectangle实例
rect.set_facecolor('green') #设置背景图片为绿色
Axes容器的常见属性有:
artists
: Artist实例列表
patch
: Axes所在的矩形实例
collections
: Collection实例
images
: Axes图像
legends
: Legend 实例
lines
: Line2D 实例
patches
: Patch 实例
texts
: Text 实例
xaxis
: matplotlib.axis.XAxis 实例
yaxis
: matplotlib.axis.YAxis 实例
matplotlib.axis.Axis
实例处理tick line
、grid line
、tick label
以及axis label
的绘制,它包括坐标轴上的刻度线、刻度label
、坐标网格、坐标轴标题。通常你可以独立的配置y轴的左边刻度以及右边的刻度,也可以独立地配置x轴的上边刻度以及下边的刻度。
刻度包括主刻度和次刻度,它们都是Tick刻度对象。
Axis
也存储了用于自适应,平移以及缩放的data_interval
和view_interval
。它还有Locator实例和Formatter实例用于控制刻度线的位置以及刻度label。
每个Axis都有一个label
属性,也有主刻度列表和次刻度列表。这些ticks
是axis.XTick
和axis.YTick
实例,它们包含着line primitive
以及text primitive
用来渲染刻度线以及刻度文本。
axis = ax.xaxis # axis为X轴对象
axis.get_ticklocs() # 获取刻度线位置
axis.get_ticklabels()
# 获取刻度label列表(一个Text实例的列表)。 可以通过minor=True|False关键字参数控制输出minor还是major的tick label。
axis.get_ticklines()
# 获取刻度线列表(一个Line2D实例的列表)。 可以通过minor=True|False关键字参数控制输出minor还是major的tick line。
axis.get_data_interval()# 获取轴刻度间隔
axis.get_view_interval()# 获取轴视角(位置)的间隔
下面的例子展示了如何调整一些轴和刻度的属性(忽略美观度,仅作调整参考):
fig = plt.figure() # 创建一个新图表
rect = fig.patch # 矩形实例并将其设为黄色
rect.set_facecolor('lightgoldenrodyellow')
ax1 = fig.add_axes([0.1, 0.3, 0.4, 0.4]) # 创一个axes对象,从(0.1,0.3)的位置开始,宽和高都为0.4,
rect = ax1.patch # ax1的矩形设为灰色
rect.set_facecolor('lightslategray')
for label in ax1.xaxis.get_ticklabels():
# 调用x轴刻度标签实例,是一个text实例
label.set_color('red') # 颜色
label.set_rotation(45) # 旋转角度
label.set_fontsize(16) # 字体大小
for line in ax1.yaxis.get_ticklines():
# 调用y轴刻度线条实例, 是一个Line2D实例
line.set_color('green') # 颜色
line.set_markersize(25) # marker大小
line.set_markeredgewidth(2)# marker粗细
matplotlib.axis.Tick
是从Figure
到Axes
到Axis
到Tick
中最末端的容器对象。
Tick
包含了tick
、grid line
实例以及对应的label
。
所有的这些都可以通过Tick
的属性获取,常见的tick
属性有
Tick.tick1line
:Line2D实例
Tick.tick2line
:Line2D实例
Tick.gridline
:Line2D实例
Tick.label1
:Text实例
Tick.label2
:Text实例
y轴分为左右两个,因此tick1对应左侧的轴;tick2对应右侧的轴。
x轴分为上下两个,因此tick1对应下侧的轴;tick2对应上侧的轴。
fig, ax = plt.subplots()
ax.plot(100*np.random.rand(20))
# ax2.plot(10*np.random.rand(20))
# 设置ticker的显示格式
formatter = matplotlib.ticker.FormatStrFormatter('$%1.2f')
ax.yaxis.set_major_formatter(formatter)
# 设置ticker的参数,右侧为主轴,颜色为绿色
ax.yaxis.set_tick_params(which='major', labelcolor='green',
labelleft=False, labelright=True);
Matplotlib具有广泛的文本支持,包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fGa7tmfs-1681776922762)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1648904841655.png)]
fig = plt.figure()
ax = fig.add_subplot()
# 分别为figure和ax设置标题,注意两者的位置是不同的
fig.suptitle('bold figure suptitle', fontsize=14, fontweight='bold')
ax.set_title('axes title')
# 设置x和y轴标签
ax.set_xlabel('xlabel')
ax.set_ylabel('ylabel')
# 设置x和y轴显示范围均为0到10
ax.axis([0, 10, 0, 10])
# 在子图上添加文本
ax.text(3, 8, 'boxed italics text in data coords', style='italic',
bbox={'facecolor': 'red', 'alpha': 0.5, 'pad': 10})
# 在画布上添加文本,一般在子图上添加文本是更常见的操作,这种方法很少用
fig.text(0.4,0.8,'This is text for figure')
ax.plot([2], [1], 'o')
# 添加注解
ax.annotate('annotate', xy=(2, 1), xytext=(3, 4),arrowprops=dict(facecolor='black', shrink=0.05));
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-chmKX36o-1681776922763)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1648905033932.png)]
text的调用方式为Axes.text(x, y, s, fontdict=None, **kwargs)
其中x
,y
为文本出现的位置,默认状态下即为当前坐标系下的坐标值,
s
为文本的内容,
fontdict
是可选参数,用于覆盖默认的文本属性,
**kwargs
为关键字参数,也可以用于传入文本样式参数
重点解释下fontdict和**kwargs参数,这两种方式都可以用于调整呈现的文本样式,最终效果是一样的,不仅text方法,其他文本方法如set_xlabel,set_title等同样适用这两种方式修改样式。通过一个例子演示这两种方法是如何使用的。
fig = plt.figure(figsize=(10,3))
axes = fig.subplots(1,2)
# 使用关键字参数修改文本样式
axes[0].text(0.3, 0.8, 'modify by **kwargs', style='italic',
bbox={'facecolor': 'red', 'alpha': 0.5, 'pad': 10});
# 使用fontdict参数修改文本样式 ,就是提前把参数设置写成字典
font = {'bbox':{'facecolor': 'red', 'alpha': 0.5, 'pad': 10}, 'style':'italic'}
axes[1].text(0.3, 0.8, 'modify by fontdict', fontdict=font);
xlabel的调用方式为Axes.set_xlabel(xlabel, fontdict=None, labelpad=None, *, loc=None, **kwargs)
ylabel方式类似,这里不重复写出。
其中xlabel
即为标签内容,
fontdict
和**kwargs
用来修改样式,上一小节已介绍,
labelpad
为标签和坐标轴的距离,默认为4,
loc
为标签位置,可选的值为’left’, ‘center’, 'right’之一,默认为居中
# 观察labelpad和loc参数的使用效果
fig = plt.figure(figsize=(10,3))
axes = fig.subplots(1,2)
axes[0].set_xlabel('xlabel',labelpad=20,loc='left')
# loc参数仅能提供粗略的位置调整,如果想要更精确的设置标签的位置,可以使用position参数+horizontalalignment参数来定位
# position由一个元组过程,第一个元素0.2表示x轴标签在x轴的位置,第二个元素对于xlabel其实是无意义的,随便填一个数都可以
# horizontalalignment='left'表示左对齐,这样设置后x轴标签就能精确定位在x=0.2的位置处
axes[1].set_xlabel('xlabel', position=(0.2, _), horizontalalignment='left');
title的调用方式为Axes.set_title(label, fontdict=None, loc=None, pad=None, *, y=None, **kwargs)
其中label为子图标签的内容,fontdict
,loc
,**kwargs
和之前小节相同不重复介绍
pad
是指标题偏离图表顶部的距离,默认为6
y
是title所在子图垂向的位置。默认值为1,即title位于子图的顶部。
suptitle的调用方式为figure.suptitle(t, **kwargs)
其中t
为画布的标题内容
# 观察pad参数的使用效果
fig = plt.figure(figsize=(10,3))
fig.suptitle('This is figure title',y=1.2) # 通过参数y设置高度
axes = fig.subplots(1,2)
axes[0].set_title('This is title',pad=15)
axes[1].set_title('This is title',pad=6);
annotate的调用方式为Axes.annotate(text, xy, *args, **kwargs)
其中text
为注解的内容,
xy
为注解箭头指向的坐标,
其他常用的参数包括:
xytext
为注解文字的坐标,
xycoords
用来定义xy参数的坐标系,
textcoords
用来定义xytext参数的坐标系,
arrowprops
用来定义指向箭头的样式
annotate的参数非常复杂,这里仅仅展示一个简单的例子,更多参数可以查看官方文档中的annotate介绍
fig = plt.figure()
ax = fig.add_subplot()
ax.annotate("",
xy=(0.2, 0.2), xycoords='data',
xytext=(0.8, 0.8), textcoords='data',
arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=0.2")
);
字体设置一般有全局字体设置和自定义局部字体设置两种方法。
#该block讲述如何在matplotlib里面,修改字体默认属性,完成全局字体的更改。
plt.rcParams['font.sans-serif'] = ['SimSun'] # 指定默认字体为新宋体。
plt.rcParams['axes.unicode_minus'] = False # 解决保存图像时 负号'-' 显示为方块和报错的问题。
#局部字体的修改方法1
x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
plt.plot(x, label='小示例图标签')
# 直接用字体的名字
plt.xlabel('x 轴名称参数', fontproperties='Microsoft YaHei', fontsize=16) # 设置x轴名称,采用微软雅黑字体
plt.ylabel('y 轴名称参数', fontproperties='Microsoft YaHei', fontsize=14) # 设置Y轴名称
plt.title('坐标系的标题', fontproperties='Microsoft YaHei', fontsize=20) # 设置坐标系标题的字体
plt.legend(loc='lower right', prop={"family": 'Microsoft YaHei'}, fontsize=10) ; # 小示例图的字体设置
#一般绘图时会自动创建刻度,而如果通过上面的例子使用set_ticks创建刻度可能会导致tick的范围与所绘制图形的范围不一致的问题。
#所以在下面的案例中,axs[1]中set_xtick的设置要与数据范围所对应,然后再通过set_xticklabels设置刻度所对应的标签
import numpy as np
import matplotlib.pyplot as plt
fig, axs = plt.subplots(2, 1, figsize=(6, 4), tight_layout=True)
x1 = np.linspace(0.0, 6.0, 100)
y1 = np.cos(2 * np.pi * x1) * np.exp(-x1)
axs[0].plot(x1, y1)
axs[0].set_xticks([0,1,2,3,4,5,6])
axs[1].plot(x1, y1)
axs[1].set_xticks([0,1,2,3,4,5,6])#要将x轴的刻度放在数据范围中的哪些位置
axs[1].set_xticklabels(['zero','one', 'two', 'three', 'four', 'five','six'],#设置刻度对应的标签
rotation=30, fontsize='small')#rotation选项设定x刻度标签倾斜30度。
axs[1].xaxis.set_ticks_position('bottom')#set_ticks_position()方法是用来设置刻度所在的位置,常用的参数有bottom、top、both、none
print(axs[1].xaxis.get_ticklines());
除了上述的简单模式,还可以使用Tick Locators and Formatters
完成对于刻度位置和刻度标签的设置。 其中Axis.set_major_locator和Axis.set_minor_locator方法用来设置标签的位置,Axis.set_major_formatter和Axis.set_minor_formatter方法用来设置标签的格式。这种方式的好处是不用显式地列举出刻度值列表。
set_major_formatter和set_minor_formatter这两个formatter格式命令可以接收字符串格式(matplotlib.ticker.StrMethodFormatter)或函数参数(matplotlib.ticker.FuncFormatter)来设置刻度值的格式 。
# 接收字符串格式的例子
fig, axs = plt.subplots(2, 2, figsize=(8, 5), tight_layout=True)
for n, ax in enumerate(axs.flat):
ax.plot(x1*10., y1)
formatter = matplotlib.ticker.FormatStrFormatter('%1.1f')
axs[0, 1].xaxis.set_major_formatter(formatter)
formatter = matplotlib.ticker.FormatStrFormatter('-%1.1f')
axs[1, 0].xaxis.set_major_formatter(formatter)
formatter = matplotlib.ticker.FormatStrFormatter('%1.5f')
axs[1, 1].xaxis.set_major_formatter(formatter);
# 接收函数的例子
def formatoddticks(x, pos):
"""Format odd tick positions."""
if x % 2:
return f'{x:1.2f}'
else:
return ''
fig, ax = plt.subplots(figsize=(5, 3), tight_layout=True)
ax.plot(x1, y1)
ax.xaxis.set_major_formatter(formatoddticks);
在普通的绘图中,我们可以直接通过上图的set_ticks进行设置刻度的位置,缺点是需要自己指定或者接受matplotlib默认给定的刻度。当需要更改刻度的位置时,matplotlib给了常用的几种locator的类型。如果要绘制更复杂的图,可以先设置locator的类型,然后通过axs.xaxis.set_major_locator(locator)绘制即可
locator=plt.MaxNLocator(nbins=7)
locator=plt.FixedLocator(locs=[0,0.5,1.5,2.5,3.5,4.5,5.5,6])#直接指定刻度所在的位置
locator=plt.AutoLocator()#自动分配刻度值的位置
locator=plt.IndexLocator(offset=0.5, base=1)#面元间距是1,从0.5开始
locator=plt.MultipleLocator(1.5)#将刻度的标签设置为1.5的倍数
locator=plt.LinearLocator(numticks=5)#线性划分5等分,4个刻度
# 接收各种locator的例子
fig, axs = plt.subplots(2, 2, figsize=(8, 5), tight_layout=True)
for n, ax in enumerate(axs.flat):
ax.plot(x1*10., y1)
locator = matplotlib.ticker.AutoLocator()
axs[0, 0].xaxis.set_major_locator(locator)
locator = matplotlib.ticker.MaxNLocator(nbins=10)
axs[0, 1].xaxis.set_major_locator(locator)
locator = matplotlib.ticker.MultipleLocator(5)
axs[1, 0].xaxis.set_major_locator(locator)
locator = matplotlib.ticker.FixedLocator([0,7,14,21,28])
axs[1, 1].xaxis.set_major_locator(locator);
此外matplotlib.dates
模块还提供了特殊的设置日期型刻度格式和位置的方式
# 特殊的日期型locator和formatter
locator = mdates.DayLocator(bymonthday=[1,15,25])
formatter = mdates.DateFormatter('%b %d')
fig, ax = plt.subplots(figsize=(5, 3), tight_layout=True)
ax.xaxis.set_major_locator(locator)
ax.xaxis.set_major_formatter(formatter)
base = datetime.datetime(2017, 1, 1, 0, 0, 1)
time = [base + datetime.timedelta(days=x) for x in range(len(x1))]
ax.plot(time, y1)
ax.tick_params(axis='x', rotation=70);
在具体学习图例之前,首先解释几个术语:
每个图例由一个或多个legend entries组成。一个entry包含一个key和其对应的label。
每个 legend label左面的colored/patterned marker(彩色/图案标记)
描述由key来表示的handle的文本
用于在图例中生成适当图例条目的原始对象
以下面这个图为例,右侧的方框中的共有两个legend entry;两个legend key,分别是一个蓝色和一个黄色的legend key;两个legend label,一个名为‘Line up’和一个名为‘Line Down’的legend label
fig, ax = plt.subplots()
line_up, = ax.plot([1, 2, 3], label='Line 2')
line_down, = ax.plot([3, 2, 1], label='Line 1')
ax.legend(handles = [line_up, line_down], labels = ['Line Up', 'Line Down']);
fig,axes = plt.subplots(1,4,figsize=(10,4))
for i in range(4):
axes[i].plot([0.5],[0.5])
axes[i].legend(labels='a',loc=i) # 观察loc参数传入不同值时图例的位置
fig.tight_layout()
lengend中loc位置参数
Location String Location Code
=============== =============
'best' 0
'upper right' 1
'upper left' 2
'lower left' 3
'lower right' 4
'right' 5
'center left' 6
'center right' 7
'lower center' 8
'upper center' 9
'center' 10
In [165]:
fig = plt.figure(figsize=(10,3))
axes = fig.subplots(1,3)
for i, ax in enumerate(axes):
ax.plot([1,2,3],label=f'ax {i}')
axes[0].legend(frameon=False) #去掉图例边框
axes[1].legend(edgecolor='blue') #设置图例边框颜色
axes[2].legend(facecolor='gray'); #设置图例背景颜色,若无边框,参数无效
fig,ax =plt.subplots()
ax.plot([1,2,3],label='label')
ax.legend(title='legend title');
matplotlib贴心地提供了许多内置的样式供用户使用,使用方法很简单,只需在python脚本的最开始输入想使用style的名称即可调用,尝试调用不同内置样式,比较区别
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
plt.style.use('default')
plt.plot([1,2,3,4],[2,3,4,5])
plt.style.use('ggplot')
plt.plot([1,2,3,4],[2,3,4,5])
print(plt.style.available)
--------------------------------
2.用户自定义stylesheet
在任意路径下创建一个后缀名为mplstyle的样式清单,编辑文件添加以下样式内容
axes.titlesize : 24
axes.labelsize : 20
lines.linewidth : 3
lines.markersize : 10
xtick.labelsize : 16
ytick.labelsize : 16
plt.style.use('file/presentation.mplstyle')
plt.plot([1,2,3,4],[2,3,4,5])
plt.style.use('default') # 恢复到默认样式
plt.plot([1,2,3,4],[2,3,4,5])
mpl.rc('lines', linewidth=4, linestyle='-.')
plt.plot([1,2,3,4],[2,3,4,5])
在可视化中,如何选择合适的颜色和搭配组合也是需要仔细考虑的,色彩选择要能够反映出可视化图像的主旨。
从可视化编码的角度对颜色进行分析,可以将颜色分为色相、亮度和饱和度
三个视觉通道。通常来说:
色相
: 没有明显的顺序性、一般不用来表达数据量的高低,而是用来表达数据列的类别。
明度和饱和度
: 在视觉上很容易区分出优先级的高低、被用作表达顺序或者表达数据量视觉通道。
具体关于色彩理论部分的知识,不属于本教程的重点,请参阅有关拓展材料学习。
ECharts数据可视化实验室
学会这6个可视化配色基本技巧,还原数据本身的意义
在matplotlib中,设置颜色有以下几种方式:
# 颜色用[0,1]之间的浮点数表示,四个分量按顺序分别为(red, green, blue, alpha),其中alpha透明度可省略
plt.plot([1,2,3],[4,5,6],color=(0.1, 0.2, 0.5))
plt.plot([4,5,6],[1,2,3],color=(0.1, 0.2, 0.5, 0.5))
In [27]:
# 当只有一个位于[0,1]的值时,表示灰度色阶
plt.plot([1,2,3],[4,5,6],color='0.5')
In [28]:
# matplotlib有八个基本颜色,可以用单字符串来表示,分别是'b', 'g', 'r', 'c', 'm', 'y', 'k', 'w',对应的是blue, green, red, cyan, magenta, yellow, black, and white的英文缩写
plt.plot([1,2,3],[4,5,6],color='m')
有些图表支持使用colormap的方式配置一组颜色,从而在可视化中通过色彩的变化表达更多信息。
在matplotlib中,colormap共有五种类型:
x = np.random.randn(50)
y = np.random.randn(50)
plt.scatter(x,y,c=x,cmap='RdPu')
import matplotlib,pyplot as plt
import numpy as np
x=np.linspace(-1,1,50)
y=2*x+1 / x**x
plt.plot(x,y)
plt.show() 输出的是一个坐标轴
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pIt9HR1a-1681776922764)(C:\Users\银晗\AppData\Roaming\Typora\typora-user-images\1617109108983.png)]
y1=2*x+1 y2=x**2
plt.figure()
plt.plot(x,y1)
plt.figure()
plt.plot(x,y2) plt.show() 显示两张图一次函数和二次函数
plt.figure(num=3,figsize=(8,5),color=‘red’,linewidth=1.0,linestyle=‘ --’) 图的长8和宽5,x轴±3距离,线的颜色,线的宽度,线样式
#简单
plt.figure(figsize=(8,10),dpi=80) dpi是清晰度
plt.plot([1,2,3,4,5,6,7]#这是x轴坐标,[12,34,42,13,42,21,32]#y轴坐标)
plt.show()
plt.savefig("test.png")/也可以鼠标右键保存
#进阶
import random
x = range(60)# 60个数据
y = [random.uniform(15,18) for i in x] #列表表达式
plt.figure(figsize=(20,10),dpi=80)
plt.plot(x,y)
x_label= ["11点{}分".format(i) for i in x]
#设置x,y轴的步长[::5]就是步长为5,本意就是原列表替换
plt.xticks(range(0,60,5),x_label[::5])
plt.yticks(range(0,40,4))
plt.grid(True,linestyle='--',alpha=0.5#透明度) #grid()网格
坐标轴有多长:plt.xlim((-1,2)) ylim((-2,3))
坐标轴的名字:plt.xlabel(“ …”) plt. ylabel (‘i am x’) plt.title()
设置坐标轴的单位下标:
new_ticks=np.linspace(-1,2,5) plt.xticks(new_ticks)
横坐标从-1到2分5个单位也就0.25一个单位
plt.yticks([-2,-1.8,-1,1.22,3,],
[‘really bad’,‘bad’,‘normal’,‘good’,‘really good’])
将y轴上对应的标点换成文字
ax=plt.gca()
ax.spines[‘right’].set_color(‘none’) 图的四个边框
ax.spines[‘top’].set_color(‘none’) 让边框消失
ax.xaixs.set_ticks_potion(‘bottom’)
ax.yaxis.set_ticks_potion(‘left’)
ax.spines[‘bottom’].set_position((‘data’,0))
ax.spines[‘left’].set_position((‘data’,0))
plt.show()
l1,=plt.plot(x,y1,label=‘up’)
l2,=plt.plot(x,y2,color=‘red’,linestyle=‘–’,label=‘down’)
plt.legend(handles(操作对象)=[l1,l2],labels(名字)=aaa,loc=‘best/upper right’)
设置背景透明度,避免遮挡
for label in ax.get_xticklabels()+ax.get_yticklabels():
label.set_fontsize(12)
label.set_bbox(dict(facecolor='white',edgecolor='None',alpha=0.7#这个是控制透明度))
n=1024
X=np.random.normol(0,1,n)
Y=np.random.normal(0,1,n)
T=np.arctan2(Y,X)#颜色
plt.scatter(X,Y,size=75,color=T,alpha=0.5)
plt.xlim((-1.5,1.5))
plt.ylim((-1.5,1.5))
plt.xtick(())#隐藏ticks
ply.ytick(())
ply.show()
arr = [11,58,22,5] #整数会计算百分比
arr = [0.1,0.4,0.2] #都是小数直接等于百分比,饼图可不完整
arr = [11,58,22,5,22]
plt.pie(arr,labels=['a','b','c','d','e'],labeldistance=0.3,autopct= '%.2f%%')
#labels是标签,labeldistance是标签距离圆心的距离,autipct = '% 几位小数f%%'
arr = [11,58,22,5,22]
plt.pie(arr,labels=['a','b','c','d','e'],labeldistance=0.3,autopct= '%.2f%%',shadow=True,explode=[0.4,0.3,0.2,0.1,0.2])
#shadow是显示阴影,explode是分裂开
plt.pie(arr)
plt.show()
import numpy as np
import matplotlib.pyplot as plt
N = 5
menMeans = (20, 35, 30, 35, 27)
womenMeans = (25, 32, 34, 20, 25)
menStd = (2, 3, 4, 1, 2)
womenStd = (3, 5, 2, 3, 3)
ind = np.arange(N) # the x locations for the groups
width = 0.35 # the width of the bars: can also be len(x) sequence
p1 = plt.bar(ind, menMeans, width, yerr=menStd)
p2 = plt.bar(ind, womenMeans, width,
bottom=menMeans, yerr=womenStd)
plt.ylabel('Scores')
plt.title('Scores by group and gender')
plt.xticks(ind, ('G1', 'G2', 'G3', 'G4', 'G5'))
plt.yticks(np.arange(0, 81, 10))
plt.legend((p1[0], p2[0]), ('Men', 'Women'))
plt.show()
n=12 #柱状图的数量
X=np.arrange(n)
Y1=(1-X/float(n))*np.random.uniform(0.5,1.0,n)
Y2=(1-X/float(n))*np.random.uniform(0.5,1.0,n)
#X就是随机产生0-12的数字,uniform根据X的值随机产生一个y
plt.bar(X,+Y1,facecolor='#9999ff',edgecolor='white')
plt.bar(X,-Y2) #bar就是柱状图,正负号表示向上向下
#其他的都是渲染
for x ,y in zip(X,Y1):
plt.text(x+0.4,y+0.05,%.2f%y,ha='center',va='bottom') #以text的方式给柱状图加标注,ha是顶部对齐,va是底部对齐
plt.figure(figsize=(10,10))
bar_width=0.2
plt.bar(x=range(10),height=gold,label='金牌',color='red',width=bar_width)
plt.bar(x=np.arange(0,10,1)+bar_width,height=silver,label='银牌',color='blue',width=bar_width)
plt.bar(x=np.arange(0,10,1)+bar_width*2,height=bronze,label='铜牌',color='c',width=bar_width)
for x,y in enumerate(gold):
plt.text(x,y,'%s'%y,ha='center',va='bottom')
for x,y in enumerate(silver):
plt.text(x+bar_width,y,'%s'%y,ha='center',va='bottom')
for x,y in enumerate(bronze):
plt.text(x+bar_width*2,y,'%s'%y,ha='center',va='top')
plt.title('奥运奖牌分析')
plt.ylabel('奖牌数')
plt.xlabel('国家/地区')
plt.xticks(np.arange(0,10,1)+bar_width/3,label)
plt.xticks(rotation=25)
plt.legend()
plt.show()
def f(x,y):
return(1-x/2+x**5+y**3)*np.exp(-x**2-y**2)
#计算高度的公式
n=256
x=np.linspace(-3,3,n)
y=np.linspace(-3,3,n)
X,Y=np.meshgrid(x,y)#图的网格的
plt.contourf(X,Y,f(X,Y),8,alpha=0.75,cmap=plt.cm.hot这个是让数字对应颜色,坐标表示的区域显示什么颜色)
C=plt.contour(X,Y,f(X,Y),8,colors='black',linewidth=.5) #画等高线,这个数字 8 就是等高线将图分为几部分,上面也一样
plt.clabel(C,inline=True,fontsize=10)
#等高线数字描述
import matplotlib.pyplot as plt
img_arr = plt.imread(“./1.jpg”)
#imread将图片读取到矩阵里,矩阵的数据代表了图片
#imshow将numpy可视化展示
plt.imshow(img_arr)
a=np.array([...数字]),reshpe(3,3)
plt.imageshow(a,interpolation='nearest',cmap='bone',origin='lower')
#interpolation就是图片显示的样式,lower是从第低到高
plt.colorbar(shrink=0.9)#控制颜色的柱状图
plt.xticks(())
plt.yticks(())
plt.show()
from mpl_toolkits.mplot3d import Axes3D
fig=plt.figure()
ax=Axes3D(fig)
#X,Y value
X=np.arange(-4,4,0.25)
Y=np.arange(-4,4,0.25)
X,Y=np.meshgrid(x,y)
r=np.sqrt(x**2+Y**2)
#height value
Z=np.sin(R)
ax.plot_surface(X,Y,Z,rstride=1(行跨度),cstride=5(列跨度),cmap=plt.get_cmap('rainbow'))
ax.contourf(X,Y,zdir='z'(将图像投影到哪个平面上xyz),offset=-2,cmap='rainbow')
ax.set_zlim=(-2,2) #z轴的高度
plt.show()
import matplotlib.pyplot as plt
plt.figure()
plt.subplot(2(2行),2(2列),1)
plt.plot([0,1],[0,2])
plt.subplot(2,2,2)
plt.plot([0,1],[0,2])
plt.subplot(223)
plt.plot([0,1],[0,3])
#以此类推
plt.show()
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
#method 1: subplot2grid
ax1=plt.subplot2grid((3,3),(0,0),colspan=3(行),rowspan=1(列))
ax1.plot([1,2],[1,2])
ax1.set_title('ax1_titile') #set是设置的意识
ax2=plt.subplot2grid((3,3),(1,0),colspan=2)
#colspan,rowspan是控制坐标轴的长和宽
#method 2: gridspec
plt.figure()
gs=gridspec.GridSpec(3,3) #这个也是控制长和宽
ax1=plt.subplot(gs[0,:])
ax2=plt.subplot(gs[1,:2])
#method 3: easy to define structure
plt
plt.tight_layout()
plt.show()
import numpy as np
import matplotlib.pyplot as plt
N = 5
menMeans = (20, 35, 30, 35, 27)
womenMeans = (25, 32, 34, 20, 25)
menStd = (2, 3, 4, 1, 2)
womenStd = (3, 5, 2, 3, 3)
ind = np.arange(N) # the x locations for the groups
width = 0.35 # the width of the bars: can also be len(x) sequence
p1 = plt.bar(ind, menMeans, width, yerr=menStd)
p2 = plt.bar(ind, womenMeans, width,
bottom=menMeans, yerr=womenStd)
# p1 = plt.bar(ind, menMeans, width)
# p2 = plt.bar(ind, womenMeans, width,
# bottom=menMeans)
plt.xlabel('Groups')
plt.ylabel('Scores')
plt.title('Scores by group and gender')
plt.xticks(ind, ('G1', 'G2', 'G3', 'G4', 'G5'))
plt.yticks(np.arange(0, 81, 10))
plt.legend((p1[0], p2[0]), ('Men', 'Women'))
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xkjgwLlK-1681776922766)( )]
In [11]:
import numpy as np
import matplotlib.pyplot as plt
men_means, men_std = (20, 35, 30, 35, 27), (2, 3, 4, 1, 2)
women_means, women_std = (25, 32, 34, 20, 25), (3, 5, 2, 3, 3)
ind = np.arange(len(men_means)) # the x locations for the groups
width = 0.35 # the width of the bars
fig, ax = plt.subplots()
rects1 = ax.bar(ind - width/2, men_means, width, yerr=men_std, #两个柱图,宽度就除以2
color='SkyBlue', label='Men')
rects2 = ax.bar(ind + width/2, women_means, width, yerr=women_std,
color='IndianRed', label='Women')
# Add some text for labels, title and custom x-axis tick labels, etc.
ax.set_ylabel('Scores')
ax.set_title('Scores by group and gender')
ax.set_xticks(ind)
ax.set_xticklabels(('G1', 'G2', 'G3', 'G4', 'G5'))
ax.legend()
def autolabel(rects, xpos='center'):
"""
Attach a text label above each bar in *rects*, displaying its height. 柱状图的上面显示文本
*xpos* indicates which side to place the text w.r.t. the center of
the bar. It can be one of the following {'center', 'right', 'left'}. 参数可选:左、中、右
"""
xpos = xpos.lower() # normalize the case of the parameter
ha = {'center': 'center', 'right': 'left', 'left': 'right'}
offset = {'center': 0.5, 'right': 0.57, 'left': 0.43} # x_txt = x + w*off
for rect in rects:
height = rect.get_height()
ax.text(rect.get_x() + rect.get_width()*offset[xpos], 1.01*height,
'{}'.format(height), ha=ha[xpos], va='bottom')
autolabel(rects1, "left")
autolabel(rects2, "right")
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HOZztXVV-1681776922767)( )]
直接用barh画就行了
In [140]:
import matplotlib.pyplot as plt
import numpy as np
# Fixing random state for reproducibility
np.random.seed(19680801)
plt.rcdefaults()
fig, ax = plt.subplots()
# Example data
people = ('Tom', 'Dick', 'Harry', 'Slim', 'Jim')
y_pos = np.arange(len(people))
performance = 3 + 10 * np.random.rand(len(people))
error = np.random.rand(len(people))
ax.barh(y_pos, performance, xerr=error, align='center')
# ax.set_yticks(y_pos, labels=people)
ax.invert_yaxis() # labels read top-to-bottom
ax.set_xlabel('Performance')
ax.set_title('How fast do you want to go today?')
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BY7YqCZc-1681776922769)( )]
In [122]:
import matplotlib
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(19680801)
# example data
mu = 100 # mean of distribution
sigma = 15 # standard deviation of distribution
x = mu + sigma * np.random.randn(437)
num_bins = 50
fig, ax = plt.subplots()
# the histogram of the data
n, bins, patches = ax.hist(x, num_bins, density=1)
# add a 'best fit' line
y = ((1 / (np.sqrt(2 * np.pi) * sigma)) *
np.exp(-0.5 * (1 / sigma * (bins - mu))**2))
ax.plot(bins, y, '--')
ax.set_xlabel('Smarts')
ax.set_ylabel('Probability density')
ax.set_title(r'Histogram of IQ: $\mu=100$, $\sigma=15$')
# Tweak spacing to prevent clipping of ylabel
fig.tight_layout()
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uw97KDlJ-1681776922771)( )]
In [124]:
# ignore warning
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import matplotlib.cbook as cbook
years = mdates.YearLocator() # every year
months = mdates.MonthLocator() # every month
yearsFmt = mdates.DateFormatter('%Y')
# Load a numpy record array from yahoo csv data with fields date, open, close,
# volume, adj_close from the mpl-data/example directory. The record array
# stores the date as an np.datetime64 with a day unit ('D') in the date column.
# with cbook.get_sample_data('goog.npz') as datafile:
# r = np.load(datafile)['price_data'].view(np.recarray) 获取日期数据
fig, ax = plt.subplots()
ax.plot(r.date, r.adj_close)
# format the ticks 定位日期
ax.xaxis.set_major_locator(years)
ax.xaxis.set_major_formatter(yearsFmt)
ax.xaxis.set_minor_locator(months)
# round to nearest years...
datemin = np.datetime64(r.date[0], 'Y')
datemax = np.datetime64(r.date[-1], 'Y') + np.timedelta64(1, 'Y')
ax.set_xlim(datemin, datemax)
# format the coords message box
def price(x):
return '$%1.2f' % x
ax.format_xdata = mdates.DateFormatter('%Y-%m-%d')
ax.format_ydata = price
ax.grid(True)
# rotates and right aligns the x labels, and moves the bottom of the
# axes up to make room for them
fig.autofmt_xdate()
plt.show()
:14: MatplotlibDeprecationWarning: In a future release, get_sample_data will automatically load numpy arrays. Set np_load to True to get the array and suppress this warning. Set asfileobj to False to get the path to the data file and suppress this warning.
with cbook.get_sample_data('goog.npz') as datafile:
---------------------------------------------------------------------------
FileNotFoundError Traceback (most recent call last)
in
12 # volume, adj_close from the mpl-data/example directory. The record array
13 # stores the date as an np.datetime64 with a day unit ('D') in the date column.
---> 14 with cbook.get_sample_data('goog.npz') as datafile:
15 r = np.load(datafile)['price_data'].view(np.recarray)
16
D:\ProgramData\Anaconda3\lib\site-packages\matplotlib\cbook\__init__.py in get_sample_data(fname, asfileobj, np_load)
463 "asfileobj to False to get the path to the data file and "
464 "suppress this warning.")
--> 465 return path.open('rb')
466 elif suffix in ['.csv', '.xrc', '.txt']:
467 return path.open('r')
D:\ProgramData\Anaconda3\lib\pathlib.py in open(self, mode, buffering, encoding, errors, newline)
1219 if self._closed:
1220 self._raise_closed()
-> 1221 return io.open(self, mode, buffering, encoding, errors, newline,
1222 opener=self._opener)
1223
D:\ProgramData\Anaconda3\lib\pathlib.py in _opener(self, name, flags, mode)
1075 def _opener(self, name, flags, mode=0o666):
1076 # A stub for the opener argument to built-in open()
-> 1077 return self._accessor.open(self, flags, mode)
1078
1079 def _raw_open(self, flags, mode=0o777):
FileNotFoundError: [Errno 2] No such file or directory: 'D:\\ProgramData\\Anaconda3\\lib\\site-packages\\matplotlib\\mpl-data\\sample_data\\goog.npz'
格式转换函数 def format_date(x, pos=None): thisind = np.clip(int(x + 0.5), 0, N - 1) return date[thisind].strftime(‘%Y-%m-%d’)
自定义匹配 ax.xaxis.set_major_formatter(ticker.FuncFormatter(format_date))
In [ ]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.cbook as cbook
import matplotlib.ticker as ticker
# Load a numpy record array from yahoo csv data with fields date, open, close,
# volume, adj_close from the mpl-data/example directory. The record array
# stores the date as an np.datetime64 with a day unit ('D') in the date column.
with cbook.get_sample_data('goog.npz') as datafile:
r = np.load(datafile)['price_data'].view(np.recarray)
r = r[-30:] # get the last 30 days
# Matplotlib works better with datetime.datetime than np.datetime64, but the
# latter is more portable.
date = r.date.astype('O')
# first we'll do it the default way, with gaps on weekends
fig, axes = plt.subplots(ncols=2, figsize=(8, 4))
ax = axes[0]
ax.plot(date, r.adj_close, 'o-')
ax.set_title("Default")
fig.autofmt_xdate()
# next we'll write a custom formatter
N = len(r)
ind = np.arange(N) # the evenly spaced plot indices
def format_date(x, pos=None):
thisind = np.clip(int(x + 0.5), 0, N - 1)
return date[thisind].strftime('%Y-%m-%d')
ax = axes[1]
ax.plot(ind, r.adj_close, 'o-')
ax.xaxis.set_major_formatter(ticker.FuncFormatter(format_date))
ax.set_title("Custom tick formatter")
fig.autofmt_xdate()
plt.show()
In [ ]:
In [18]:
import matplotlib.pyplot as plt
data = {'apples': 10, 'oranges': 15, 'lemons': 5, 'limes': 20}
names = list(data.keys())
values = list(data.values())
fig, axs = plt.subplots(1, 3, figsize=(9, 3), sharey=True) #subplot(几行,几列,图像大小(与行列要匹配))
axs[0].bar(names, values)
axs[1].scatter(names, values)
axs[2].plot(names, values)
fig.suptitle('Categorical Plotting')
Out[18]:
Text(0.5, 0.98, 'Categorical Plotting')
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RewEKlqj-1681776922773)( )]
In [19]:
cat = ["bored", "happy", "bored", "bored", "happy", "bored"]
dog = ["happy", "happy", "happy", "happy", "bored", "bored"]
activity = ["combing", "drinking", "feeding", "napping", "playing", "washing"]
fig, ax = plt.subplots()
ax.plot(activity, dog, label="dog")
ax.plot(activity, cat, label="cat")
ax.legend()
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BlFiGTdS-1681776922774)( )]
In [22]:
import numpy as np
import matplotlib.pyplot as plt
# Fixing random state for reproducibility
np.random.seed(19680801)
dt = 0.01
t = np.arange(0, 30, dt)
nse1 = np.random.randn(len(t)) # white noise 1
nse2 = np.random.randn(len(t)) # white noise 2
# Two signals with a coherent part at 10Hz and a random part
s1 = np.sin(2 * np.pi * 10 * t) + nse1
s2 = np.sin(2 * np.pi * 10 * t) + nse2
fig, axs = plt.subplots(2, 1)
axs[0].plot(t, s1, t, s2)
axs[0].set_xlim(0, 2)
axs[0].set_xlabel('time')
axs[0].set_ylabel('s1 and s2')
axs[0].grid(True)
cxy, f = axs[1].cohere(s1, s2, 256, 1. / dt) # 俩曲线的相干度曲线
axs[1].set_ylabel('coherence')
fig.tight_layout()
plt.show()
15 r = np.load(datafile)['price_data'].view(np.recarray)
16
D:\ProgramData\Anaconda3\lib\site-packages\matplotlib\cbook_init_.py in get_sample_data(fname, asfileobj, np_load)
463 "asfileobj to False to get the path to the data file and "
464 “suppress this warning.”)
–> 465 return path.open(‘rb’)
466 elif suffix in [‘.csv’, ‘.xrc’, ‘.txt’]:
467 return path.open(‘r’)
D:\ProgramData\Anaconda3\lib\pathlib.py in open(self, mode, buffering, encoding, errors, newline)
1219 if self._closed:
1220 self._raise_closed()
-> 1221 return io.open(self, mode, buffering, encoding, errors, newline,
1222 opener=self._opener)
1223
D:\ProgramData\Anaconda3\lib\pathlib.py in _opener(self, name, flags, mode)
1075 def _opener(self, name, flags, mode=0o666):
1076 # A stub for the opener argument to built-in open()
-> 1077 return self._accessor.open(self, flags, mode)
1078
1079 def _raw_open(self, flags, mode=0o777):
FileNotFoundError: [Errno 2] No such file or directory: ‘D:\ProgramData\Anaconda3\lib\site-packages\matplotlib\mpl-data\sample_data\goog.npz’
#### 自定义时间或者 自动匹配
格式转换函数 def format_date(x, pos=None): thisind = np.clip(int(x + 0.5), 0, N - 1) return date[thisind].strftime('%Y-%m-%d')
自定义匹配 ax.xaxis.set_major_formatter(ticker.FuncFormatter(format_date))
In [ ]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.cbook as cbook
import matplotlib.ticker as ticker
with cbook.get_sample_data(‘goog.npz’) as datafile:
r = np.load(datafile)[‘price_data’].view(np.recarray)
r = r[-30:] # get the last 30 days
date = r.date.astype(‘O’)
fig, axes = plt.subplots(ncols=2, figsize=(8, 4))
ax = axes[0]
ax.plot(date, r.adj_close, ‘o-’)
ax.set_title(“Default”)
fig.autofmt_xdate()
N = len®
ind = np.arange(N) # the evenly spaced plot indices
def format_date(x, pos=None):
thisind = np.clip(int(x + 0.5), 0, N - 1)
return date[thisind].strftime(‘%Y-%m-%d’)
ax = axes[1]
ax.plot(ind, r.adj_close, ‘o-’)
ax.xaxis.set_major_formatter(ticker.FuncFormatter(format_date))
ax.set_title(“Custom tick formatter”)
fig.autofmt_xdate()
plt.show()
In [ ]:
## 绘制分类变量
In [18]:
import matplotlib.pyplot as plt
data = {‘apples’: 10, ‘oranges’: 15, ‘lemons’: 5, ‘limes’: 20}
names = list(data.keys())
values = list(data.values())
fig, axs = plt.subplots(1, 3, figsize=(9, 3), sharey=True) #subplot(几行,几列,图像大小(与行列要匹配))
axs[0].bar(names, values)
axs[1].scatter(names, values)
axs[2].plot(names, values)
fig.suptitle(‘Categorical Plotting’)
Out[18]:
Text(0.5, 0.98, ‘Categorical Plotting’)
[外链图片转存中...(img-RewEKlqj-1681776922773)]
In [19]:
cat = [“bored”, “happy”, “bored”, “bored”, “happy”, “bored”]
dog = [“happy”, “happy”, “happy”, “happy”, “bored”, “bored”]
activity = [“combing”, “drinking”, “feeding”, “napping”, “playing”, “washing”]
fig, ax = plt.subplots()
ax.plot(activity, dog, label=“dog”)
ax.plot(activity, cat, label=“cat”)
ax.legend()
plt.show()
[外链图片转存中...(img-BlFiGTdS-1681776922774)]
## 绘制两曲线的相干性
In [22]:
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(19680801)
dt = 0.01
t = np.arange(0, 30, dt)
nse1 = np.random.randn(len(t)) # white noise 1
nse2 = np.random.randn(len(t)) # white noise 2
s1 = np.sin(2 * np.pi * 10 * t) + nse1
s2 = np.sin(2 * np.pi * 10 * t) + nse2
fig, axs = plt.subplots(2, 1)
axs[0].plot(t, s1, t, s2)
axs[0].set_xlim(0, 2)
axs[0].set_xlabel(‘time’)
axs[0].set_ylabel(‘s1 and s2’)
axs[0].grid(True)
cxy, f = axs[1].cohere(s1, s2, 256, 1. / dt) # 俩曲线的相干度曲线
axs[1].set_ylabel(‘coherence’)
fig.tight_layout()
plt.show()
![img](