笔记本 - 数据分析百宝箱

Numpy

一、基本操作:

属性:

improt numpy as np

生成数组:

array=np.array([[1,2,3],[2,3,4]],dtype=np.int/float)

array.npim: 几维的数组

array.shape: 几行几列;

array.size : 数组内几个元素

a=np.zeros/ones( (3,4) ) 生成一个全部是1的三行四列的矩阵

a=np.arange(10,20,2) 生成一个10到20,步长为2的数组

a=np.arrange(12).reshape((3,4)) 重新定义shape

a=linspace(1,10,5)生成一个从1到10的线段

a=np.array([10,20,30]); b=np.arrange(4); c=a+b ;print© 可以进行数学基本运算

print(b<3)将数组内数字进行判断,返回ture或flase

乘法:c=a*b(逐个相乘) c_dot=np.dot(a,b) ==c_dot=a.dot(b):矩阵相乘

生成随机的矩阵:

a=np.random.randint((2,4))

数组操作:

reshape(a, newshape[, order]) 在不更改数据的情况下为数组赋予新的形状。
ravel(a[, order]) 返回一个连续的扁平数组。
ndarray.flat 数组上的一维迭代器。
tile(A, reps) 通过重复A代表次数来构造一个数组。
delete(arr, obj[, axis]) 返回一个新的数组,该数组具有沿删除的轴的子数组。
unique(ar[, return_index, return_inverse, …]) 查找数组的唯一元素
resize(a, new_shape) 返回具有指定形状的新数组。
删除举例:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KCm0cOpV-1681776922723)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1643893309568.png)]

重复举例:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z18qJ2hR-1681776922725)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1643893602277.png)]

数组形状:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XA9uqZVm-1681776922726)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1643893869571.png)]

过滤掉零:
a = np.array((0, 0, 0, 1, 2, 3, 0, 2, 1, 0))
>>> np.trim_zeros(a)
array([1, 2, 3, 0, 2, 1])

数学方法:

先生成一个随机的数组:

a=np.random.randint((2,4))

方法名 解释:
np.sum(a,axis=1) 在第一行寻求总和(最大、最小)
np.argmin(a) 寻找最小最大的索引
np.mean(a) 求平均值
np.cumsum(a) 累加
np.concatenate((arr,arr),axis=0/1) 数组拼接,按行或者按列
np.sin()/cos()/tan() 求正弦余弦正切值
np.amin()和np.amax() 指定轴的最大最小值
np.ptp() 数组元素的最大值最小值的差
np.median() 数组中的中位数
np.std() 数组元素的标准差
np.var() 方差
np.nonzero(a) 输出a数组中非0的数的索引
np.sort(a) 从小到大逐行进行排序
np.transpose(a) 矩阵转置
np.clip(a,最小值,最大值) 按照你给定的最小值、最大值进行数组截取

索引:

A=np.arrange(3,15).reshape((3,4))

print(A[1] [1]):输出第一行第一列,一维数组就是是直接索引;

print(A[2,1])输出第二行第一列的一个数

还可以运用切片:A[ : , 1]:每行的第一列数

for column in A.T:
    print(A.T)  #转置后输出行,也就是按列输出
for item in A.flat:
    print(item)		#将数组里每一个数字单个输出

合并和分割:

合并:

A=np.array([1,1,1]) ; B=np.arrray([2,2,2])

print(np.vstack((A,B))) :上下合并,变成两行

print**(np.hstack((A,B)**)) :左右合并,就一行

A[ : , np.newaxis] :纵向合并,一行三列分成三行一列

np.concatenate( (A,B,B,A) ,axis=0) :纵向和横向合并

分割:

A=np.arrange(12).reshape((3,4))

np.split(A,2,axis=0) : axis=0就是指定的行 axis=1是指定的列

split只能等量分割,用 np.array_split(A,3,axis=1)是不等量分割

np.vsplit( (A,3) ) 横向分割,hsplit是纵向分割

Numpy的常用函数

where:

where是一种条件函数,可以指定满足条件与不满足条件位置对应的填充值:

a = np.array([-1,1,-1,0])
np.where(a>0, a, 5) # 对应位置为True时填充a对应元素,否则填充5

nonzero, argmax, argmin

这三个函数返回的都是索引,nonzero返回非零数的索引,argmax, argmin分别返回最大和最小数的索引:

a = np.array([-2,-5,0,1,3,-1])

np.nonzero(a)
a.argmax()
a.argmin()

any, all

any`指当序列至少存在一`True`或非零元素时返回`True`,否则返回`False
all`指当序列元素全为 `True`或非零元素时返回`True`,否则返回`False

累乘累加

cumprod, cumsum分别表示累乘和累加函数,返回同长度的数组,diff表示数组中的每一个元素和前一个元素做差,由于第一个元素为缺失值,因此在默认参数情况下,返回长度是原数组减1

a = np.array([1,2,3])
a.cumprod()
a.cumsum()
np.diff(a)

含缺失值的计算

因为数组里面含有缺失值,所以使用函数返回的也是缺失值,所以我们要过滤掉这些缺失值

target = np.array([1, 2, np.nan])
np.nanmax(target)  #过滤掉nan计算最大值
np.nanquantile(target, 0.5)

矩阵计算

向量内积:

a = np.array([1,2,3])
b = np.array([1,3,5])
a.dot(b)

向量范数和矩阵范数:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IyxuQiL1-1681776922727)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647175424022.png)]

matrix_target =  np.arange(4).reshape(-1,2)

np.linalg.norm(matrix_target, 'fro')
np.linalg.norm(matrix_target, np.inf)

Pandas:

提取原数据:用 .arrayto_numpy 提取数据

排除缺失值:一般的聚合函数都有 skipna 关键字,指定是否要排除缺失数据,默认值为 True

  • 注意:NumPy 的 meanstdsum 等方法默认不统计 Series 里的空值

常用方法:

函数 描述
count 统计非空值数量
sum 汇总值
mean 平均值
mad 平均绝对偏差
median 算数中位数
min 最小值
max 最大值
mode 众数
abs 绝对值
prod 乘积
std 贝塞尔校正的样本标准偏差
var 无偏方差
sem 平均值的标准误差
skew 样本偏度 (第三阶)
kurt 样本峰度 (第四阶)
quantile 样本分位数 (不同 % 的值)
cumsum 累加
cumprod 累乘
cummax 累积最大值
cummin 累积最小值

最大/小位置索引:

Series 与 DataFrame 的 idxmax()idxmin() 函数计算最大值与最小值对应的索引。

idxminidxmax 对应 NumPy 里的 argminargmax

apply()函数:

apply()方法沿着 DataFrame 的轴应用函数,比如,描述性统计方法,该方法支持 axis 参数。

它就是对DataFrame的行或列进行操作

In [141]: df.apply(np.mean)
Out[141]: 
one      0.811094
two      1.360588
three    0.187958
dtype: float64

In [142]: df.apply(np.mean, axis=1)
Out[142]: 
a    1.583749
b    0.734929
c    1.133683
d   -0.166914
dtype: float64

In [143]: df.apply(lambda x: x.max() - x.min())
Out[143]: 
one      1.051928
two      1.632779
three    1.840607
dtype: float64

apply() 方法还支持通过函数名字符串调用函数。

In [146]: df.apply('mean')
Out[146]: 
one      0.811094
two      1.360588
three    0.187958
dtype: float64

In [147]: df.apply('mean', axis=1)
Out[147]: 
a    1.583749
b    0.734929
c    1.133683
d   -0.166914
dtype: float64

聚合API

就是组合多个函数

tsdf.agg(['sum', 'mean'])
Out[160]: 
             A         B         C
sum   3.033606 -1.803879  1.575510
mean  0.505601 -0.300647  0.262585

In [161]: tsdf.A.agg(['sum', 'mean'])
Out[161]: 
sum     3.033606
mean    0.505601
Name: A, dtype: float64

用字典实现聚合

指定为哪些列应用哪些聚合函数时,需要把包含列名与标量(或标量列表)的字典传递给 DataFrame.agg

注意:这里输出结果的顺序不是固定的,要想让输出顺序与输入顺序一致,请使用 OrderedDict

In [165]: tsdf.agg({'A': 'mean', 'B': 'sum'})
Out[165]: 
A    0.505601
B   -1.803879
dtype: float64

输入的参数是列表时,输出结果为 DataFrame,并以矩阵形式显示所有聚合函数的计算结果,且输出结果由所有唯一函数组成。未执行聚合操作的列输出结果为 NaN 值:

In [166]: tsdf.agg({'A': ['mean', 'min'], 'B': 'sum'})
Out[166]: 
             A         B
mean  0.505601       NaN
min  -0.749892       NaN
sum        NaN -1.803879

transform函数

.transform() 支持 NumPy 函数、字符串函数及自定义函数。

tsdf.transform(np.abs)/tsdf.transform('abs')/tsdf.transform(lambda x: x.abs())

函数字典可以为每列执行指定 transform() 操作。

tsdf.transform({'A': np.abs, 'B': lambda x: x + 1})

valus值可以使用列表

Series

Series是一维的,显示列索引,Series(data=[],index=[])

import pandas as pd
from pandas import Series

s= Series(data=[1,2,3,'four'],index=['a','b','c','d'])
dic={
    '语文':120,
    '数学':117,
    '英语':121,
    '理综':224,
}
s= Series(data=dic)		#数据源可以是numpy的矩阵、数组也可以是字典
s[0:2]			#切片操作和numpy一样


head(),tail():首尾5个数据
unique():去重

s=dp.Series([1,3,6,np.nan,44,1]) #pandas会自动给列表内元素加上编号,一个一行输出

pandas就是把列表内数据进行行和列的排序,行和列的名字可以直接定义并输出

DataFrame:

DataFrame是二维的,自动生成行列的索引

from pandas import DataFrame
df=DataFrame(data=np.random.randint(10,20,size=(4,4)),index=['a','b','c','d']

dic={
    'name':['zhangsan','liis','wangwu'],
    'salary':[1000,2000,3000]
}
df=DataFrame(data=dic)

DataFrame的属性:values(返回整个数据的数组),columns(行索引),index(列索引),shape()

dates=pd.date_range(‘20160101’,perides=6) 从1号一直输出到6号,因为给perides=6

df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=[‘a’,‘b’,‘c’,‘d’])

获取属性

我们可以打印

Series: dtype, index,values,name, shape,

DataFrame: dtypes,index , columns,values,shape , .T

(类型,行索引、列索引、值,长度)

describe()/ info(): 获取数据信息

读写文件

header=None表示第一行不作为列名,index_col表示把某一列或几列作为索引,索引的内容将会在第三章进行详述,usecols表示读取列的集合,默认读取所有的列,parse_dates表示需要转化为时间的列,关于时间序列的有关内容将在第十章讲解,nrows表示读取的数据行数。上面这些参数在上述的三个函数里都可以使用。

pd.read_csv('../data/my_csv.csv', index_col=['col1', 'col2']) 可指定多列为索引列

pd.read_csv('../data/my_csv.csv', parse_dates=['col5']) 指定时间列

-----
在读取txt文件时,经常遇到分隔符非空格的情况,read_table有一个分割参数sep,它使得用户可以自定义分割符号,进行txt数据的读取。例如,下面的读取的表以||||为分割:

上面的结果显然不是理想的,这时可以使用sep,同时需要指定引擎为python:

pd.read_table('../data/my_table_special_sep.txt', sep=' \|\|\|\| ', engine='python')

特征统计函数:

需要介绍的是quantile, count, idxmax这三个函数,它们分别返回的是分位数、非缺失值个数、最大值对应的索引:

df_demo.quantile(0.75)
df_demo.count()
df_demo.idxmax() # idxmin是对应的函数

唯一值:

对序列使用uniquenunique可以分别得到其唯一值组成的列表和唯一值的个数:

df['School'].unique()

df['School'].nunique()

去重的使用:

duplicateddrop_duplicates的功能类似,但前者返回了是否为唯一值的布尔列表,其keep参数与后者一致。其返回的序列,把重复元素设为True,否则为Falsedrop_duplicates等价于把duplicatedTrue的对应行剔除。

df_demo.drop_duplicates(['Name', 'Gender'], keep=False).head() # 保留只出现过一次的性别和姓名组合

替换函数:

替换操作是针对某一个列进行的,因此下面的例子都以Series举例。pandas中的替换函数可以归纳为三类:映射替换、逻辑替换、数值替换。其中映射替换包含replace方法、第八章中的str.replace方法以及第九章中的cat.codes方法,此处介绍replace的用法。

在replace中, 可以通过字典构造,或者传入两个列表来进行替换:

df['Gender'].replace({'Female':0, 'Male':1}).head()
# 把女换成0,男换成1
df['Gender'].replace(['Female', 'Male'], [0,1]).head()
#两种都可以

还可以用最前一个或者后一个的值进行替换:

指定method参数为ffill则为用前面一个最近的未被替换的值进行替换,bfill则使用后面最近的未被替换的值进行替换

s = pd.Series(['a', 1, 'b', 2, 1, 1, 'a'])
s.replace([1, 2], method='ffill')
s.replace([1, 2], method='bfill') #替换1,2

逻辑替换:

包括了wheremask,这两个函数是完全对称的:where函数在传入条件为False的对应行进行替换,而mask在传入条件为True的对应行进行替换,当不指定替换值时,替换为缺失值。

s = pd.Series([-1, 1.2345, 100, -50])
s.where(s<0, 100)
s.mask(s<0, -50)  #符合条件的用,对应的值进行替换


排序:

索引排序的用法和值排序完全一致,只不过元素的值在索引中,此时需要指定索引层的名字或者层号,用参数level表示。另外,需要注意的是字符串的排列顺序由字母顺序决定。

set_index:指定多列可生成多级索引的表
demo = df[['Grade', 'Name', 'Height', 'Weight']].set_index(['Grade','Name'])

df.sort_index(level['Grade','Name'],axis=0,ascending=Flase):对行进行排序

df.sort_values(by=[‘E’]):对E这一列的值进行排序

多列排序:

在排序中,经常遇到多列排序的问题,比如在体重相同的情况下,对身高进行排序,并且保持身高降序排列,体重升序排列:

df_demo.sort_values(['Weight','Height'],ascending=[True,False]).head()

选择排序:

列索引:

df[‘A’] :选择输出A这一列
df[['A','B']] : 输出多列放在列表中
等价于
df.A
在df.query里面 直接使用列名 带空格用英文 的这个符号`...`

行索引

1.字符串索引
s = pd.Series([1, 2, 3, 4, 5, 6], index=['a', 'b', 'a', 'a', 'a', 'c'])

s['a'] 和s[['a','b']]

索引切片:(注意索引不能重复)
s['c': 'b': -2]

如果索引重复:需要排序后切片
s.sort_index()['a': 'b']

2. 整数索引
s[1]  s[[1,2,3]]

如果使用整数切片,则会取出对应索引位置的值,注意这里的整数切片同Python中的切片一样不包含右端点:
	s[1:-1:2] 步长为2

print(df[0:3],df[‘20130102’:‘20130104’] :用切片或者指定区间

loc是标签选择

loc索引器的一般形式是loc[*, *],其中第一个*代表行的选择,第二个*代表列的选择,如果省略第二个位置写作loc[*],这个*是指行的筛选。其中,*的位置一共有五类合法对象,分别是:单个元素、元素列表、元素切片、布尔列表以及函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pnXStrJb-1681776922732)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647179615440.png)]

df.loc[20130102]

df.loc[ : ,[‘A’,‘B’]:打印所有行和A和B两列

df.loc[20130102, [ ‘A’ , ‘B’] ] :输出20130102这行的A和B两列的值

【b】*为元素列表
此时,取出列表中所有元素值对应的行或列:
df_demo.loc[['Qiang Sun','Quan Zhao'], ['School','Gender']]

【c】*为切片

之前的Series使用字符串索引时提到,如果是唯一值的起点和终点字符,那么就可以使用切片,并且包含两个端点,如果不唯一则报错:

df_demo.loc['Gaojuan You':'Gaoqiang Qian', 'School':'Gender']


【d】*为布尔列表

在实际的数据处理中,根据条件来筛选行是极其常见的,此处传入loc的布尔列表与DataFrame长度相同,且列表为True的位置所对应的行会被选中,False则会被剔除。

例如,选出体重超过70kg的学生:
df_demo.loc[df_demo.Weight>70].head()

也可以通过isin方法返回的布尔列表等价写出,例如选出所有大一和大四的同学信息:
df_demo.loc[df_demo.Grade.isin(['Freshman', 'Senior'])].head()

isnotin???? 不不不,这里是使用bool类型,前面加逻辑非运算就好了
df_demo.loc[~df_demo.Grade.isin(['Freshman', 'Senior'])].head()


组合条件查询:
#组合1
condition_1_1 = df_demo.School == 'Fudan University'
condition_1_2 = df_demo.Grade == 'Senior'
condition_1_3 = df_demo.Weight > 70

condition_1 = condition_1_1 & condition_1_2 & condition_1_3
#组合2
condition_2_1 = df_demo.School == 'Peking University'
condition_2_2 = df_demo.Grade == 'Senior'
condition_2_3 = df_demo.Weight > 80

condition_2 = condition_2_1 & (~condition_2_2) & condition_2_3

df_demo.loc[condition_1 | condition_2]

将条件查询封装成函数
def condition(x):
    condition_1_1 = x.School == 'Fudan University'
    condition_1_2 = x.Grade == 'Senior'
    condition_1_3 = x.Weight > 70
    condition_1 = condition_1_1 & condition_1_2 & condition_1_3
    condition_2_1 = x.School == 'Peking University'
    condition_2_2 = x.Grade == 'Senior'
    condition_2_3 = x.Weight > 80
    condition_2 = condition_2_1 & (~condition_2_2) & condition_2_3
    result = condition_1 | condition_2
    return result
    
df_demo.loc[condition]


lambda形式:
df_demo.loc[lambda x:'Quan Zhao', lambda x:'Gender']

由于函数无法返回如start: end: step的切片形式,故返回切片时要用slice对象进行包装:
df_demo.loc[lambda x: slice('Gaojuan You', 'Gaoqiang Qian')]
iloc是位置选择

df.iloc[3,1] :选择第三行第一列

df.iloc[ [3:5 , 1:3] :三到五行的一到三列

di.iloc[[1,3,5],1:3] :选择1,3,5行的第一到第三列

布尔选择:

在使用布尔列表的时候要特别注意,不能传入Series,而必须传入序列的values,否则会报错。因此,在使用布尔筛选的时候还是应当优先考虑loc的方式。

df_demo.iloc[(df_demo.Weight>80).values].head()

ix是标签和位置一起使用

df.ix[ :3 , [ ‘A’ , ‘C’ ]] :第0行到第3行,A和C两列

是否筛选:

print(df[df.A>8]) :在A这列筛选值大于8的,A列输出满足条件的行时,同行的数据也会输出

选定位置后赋值:

df.iloc[2,2]=1111 df.iloc[‘20100101’ , ‘B’]=2222 横向和纵向定位更改

df[df.A>0]=0 A这列大于0的数字变成0

df[‘F’]=np.nan 加上F这列,赋值nan

df[‘E’]=pd.Series( [1,2,3,4,5,6] ,index=pd.date_range(‘20130101’ , periods=6) )

缺失值统计

缺失数据可以使用isnaisnull(两个函数没有区别)来查看每个单元格是否缺失,结合mean可以计算出每列缺失值的比例:

df.isnull()/isna()

如果想要查看某一列缺失或者非缺失的行,可以利用Series上的isna或者notna进行布尔索引。

例如,查看身高缺失的行:

df[df.Height.isna()]

如果想要同时对几个列,检索出全部为缺失或者至少有一个缺失或者没有缺失的行,可以使用isna, notnaany, all的组合。例如,对身高、体重和转系情况这3列分别进行这三种情况的检索:

sub_set = df[['Height', 'Weight', 'Transfer']]
df[sub_set.isna().all(1)] # 全部缺失
df[sub_set.isna().any(1)].head() # 至少有一个缺失
df[sub_set.notna().all(1)].head() # 没有缺失

dropna

dropna的主要参数为轴方向axis(默认为0,即删除行)、删除方式how、删除的非缺失值个数阈值thresh(非缺失值非缺失值没有达到这个数量的相应维度会被删除)、备选的删除子集subset,其中how主要有anyall两种参数可以选择。

例如,删除身高体重至少有一个缺失的行:
res = df.dropna(how = 'any', subset = ['Height', 'Weight'])
res.shape
例如,删除超过15个缺失值的列:
res = df.dropna(1, thresh=df.shape[0]-15) # 身高被删除
res.head()

fillna

fillna中有三个参数是常用的:value, method, limit。其中,value为填充值,可以是标量,也可以是索引到元素的字典映射;

method为填充方法,有用前面的元素填充ffill和用后面的元素填充bfill两种类型,

limit参数表示连续缺失值的最大填充次数。

s.fillna(method='ffill') # 用前面的值向后填充
s.fillna(method='ffill', limit=1) # 连续出现的缺失,最多填充一次
s.fillna(s.mean()) # value为标量
s.fillna({'a': 100, 'd': 200}) # 通过索引映射填充的值

有时为了更加合理地填充,需要先进行分组后再操作。例如,根据年级进行身高的均值填充:
df.groupby('Grade')['Height'].transform(lambda x: x.fillna(x.mean())).head()

插值函数

线性插值、最近邻插值和索引插值

对于interpolate而言,除了插值方法(默认为linear线性插值)之外,有与fillna类似的两个常用参数,

一个是控制方向的limit_direction

另一个是控制最大连续缺失值插值个数的limit

其中,限制插值的方向默认为forward,这与fillnamethod中的ffill是类似的,若想要后向限制插值或者双向限制插值可以指定为backwardboth

默认线性插值法下分别进行backward和双向限制插值,同时限制最大连续条数为1:
res = s.interpolate(limit_direction='backward/both', limit=1)
res.values

第二种常见的插值是最近邻插补,即缺失值的元素和离它最近的非缺失值元素一样:
s.interpolate('nearest').values

最后来介绍索引插值,即根据索引大小进行线性插值。例如,构造不等间距的索引进行演示:

s.interpolate() # 默认的线性插值,等价于计算中点的值,1和10中间缺失补5
s.interpolate(method='index') 
# 和索引有关的线性插值,计算相应索引大小对应的值,1和10中间缺失补1,因为差10个索引,每个索引为1 ,即索引线性

对于时间戳亦可用

python中的缺失值用None表示,该元素除了等于自己本身之外,与其他任何元素不相等:

numpy中利用np.nan来表示缺失值,该元素除了不和其他任何元素相等之外,和自身的比较结果也返回False

在时间序列的对象中,pandas利用pd.NaT来指代缺失值,它的作用和np.nan是一致的

由于np.nan的浮点性质,如果在一个整数的Series中出现缺失,那么其类型会转变为float64;而如果在一个布尔类型的序列中出现缺失,那么其类型就会转为object而不是bool

Nullable类型的性质

从字面意义上看Nullable就是可空的,言下之意就是序列类型不受缺失值的影响。例如,在上述三个Nullable类型中存储缺失值,都会转为pandas内置的pd.NA

一般在实际数据处理时,可以在数据集读入后,先通过convert_dtypes转为Nullable类型:

df = pd.read_csv('../data/learn_pandas.csv')
df = df.convert_dtypes()
df.dtypes

缺失数据的计算:

  1. 当调用函数sum, prod使用加法和乘法的时候,缺失数据等价于被分别视作0和1,即不改变原来的计算结果:

  2. 当使用累计函数时,会自动跳过缺失值所处的位置:

  3. 另外需要注意的是,diff, pct_change这两个函数虽然功能相似,但是对于缺失的处理不同,前者凡是参与缺失计算的部分全部设为了缺失值,而后者缺失值位置会被设为 0% 的变化率

删除行列:

#删除B和C两列,两种方法
df.drop(['B', 'C'], axis=1)
df.drop(columns=['B', 'C'])

#删除行
df.drop([0])
df.drop([0, 1])

#删除(del、pop)列的方式也与字典类似
del df['two']

three = df.pop('three')

query方法

pandas中,支持把字符串形式的查询表达式传入query方法来查询数据,其表达式的执行结果必须返回布尔列表。在进行复杂索引时,由于这种检索方式无需像普通方法一样重复使用DataFrame的名字来引用列名,一般而言会使代码长度在不降低可读性的前提下有所减少。

df.query('((School == "Fudan University")&'
         ' (Grade == "Senior")&'
         ' (Weight > 70))|'
         '((School == "Peking University")&'
         ' (Grade != "Senior")&'
         ' (Weight > 80))')

query表达式中,帮用户注册了所有来自DataFrame的列名,所有属于该Series的方法都可以被调用,和正常的函数调用并没有区别,例如查询体重超过均值的学生:

df.query('Weight > Weight.mean()').head() 

对于含有空格的列名,需要使用英文顿号col name的方式进行引用

同时,在query中还注册了若干英语的字面用法,帮助提高可读性,例如:or, and, or, in, not in。例如,筛选出男生中不是大一大二的学生:

df.query('(Grade not in ["Freshman", "Sophomore"]) and (Gender == "Male")').head()

此外,在字符串中出现与列表的比较时,==!=分别表示元素出现在列表和没有出现在列表,等价于innot in,例如查询所有大三和大四的学生:

df.query('Grade == ["Junior", "Senior"]').head()

引入外部变量:

对于query中的字符串,如果要引用外部变量,只需在变量名前加@符号。例如,取出体重位于70kg到80kg之间的学生:

low, high =70, 80
df.query('Weight.between(@low, @high)').head()

索引案例

df['Cocoa Percent'] = df['Cocoa Percent'].apply(lambda x:float(x[:-1])/100)
df.query('(Rating<3)&(`Cocoa Percent`>`Cocoa Percent`.median())')

df.loc[lambda x:x.Rating<=2.75&(x["Cocoa Percent"]>x["Cocoa Percent"].median())]
idx = pd.IndexSlice
exclude = ['France', 'Canada', 'Amsterdam', 'Belgium']
res = df.set_index(['Review Date', 'Company Location']).sort_index(level=0)

#这里对索引再就行筛选
res.loc[idx[2012:,~res.index.get_level_values(1).isin(exclude)],:].head(3)

随机抽样:

如果把DataFrame的每一行看作一个样本,或把每一列看作一个特征,再把整个DataFrame看作总体,想要对样本或特征进行随机抽样就可以用sample函数。有时在拿到大型数据集后,想要对统计特征进行计算来了解数据的大致分布,但是这很费时间。同时,由于许多统计特征在等概率不放回的简单随机抽样条件下,是总体统计特征的无偏估计,比如样本均值和总体均值,那么就可以先从整张表中抽出一部分来做近似估计


sample函数中的主要参数为n, axis, frac, replace, weights,前三个分别是指抽样数量、抽样的方向(0为行、1为列)和抽样比例(0.3则为从总体中抽出30%的样本)。

replaceweights分别是指是否放回和每个样本的抽样相对概率,当replace = True则表示有放回抽样。例如,对下面构造的df_samplevalue值的相对大小为抽样概率进行有放回抽样,抽样数量为3。

df_sample.sample(3, replace = True, weights = df_sample.value)

多级索引

loc:

由于多级索引中的单个元素以元组为单位,因此之前在第一节介绍的 lociloc 方法完全可以照搬,只需把标量的位置替换成对应的元组。

当传入元组列表或单个元组或返回前二者的函数时,需要先进行索引排序以避免性能警告:

df_sorted = df_multi.sort_index()
df_sorted.loc[('Fudan University', 'Junior')].head()

获取索引:

df.index/columns.names/values
df.index.get_level_values(0/1) 获取第一层、第二层

但对于索引而言,无论是单层还是多层,用户都无法通过index_obj[0] = item的方式来修改元素,也不能通过index_name[0] = new_name的方式来修改名字

经典案例:
idx = pd.IndexSlice
exclude = ['France', 'Canada', 'Amsterdam', 'Belgium']
res = df.set_index(['Review Date', 'Company Location']).sort_index(level=0)

res.loc[idx[2012:,~res.index.get_level_values(1).isin(exclude)],:].head(3)

当使用切片时需要注意,在单级索引中只要切片端点元素是唯一的,那么就可以进行切片,但在多级索引中,无论元组在索引中是否重复出现,都必须经过排序才能使用切片,否则报错

#报错
df_multi.loc[('Fudan University', 'Senior'):].head()
df_unique.loc[('Fudan University', 'Senior'):].head()
#更正
df_unique.sort_index().loc[('Fudan University', 'Senior'):].head()

在多级索引中的元组有一种特殊的用法,可以对多层的元素进行交叉组合后索引,但同时需要指定loc的列,全选则用:表示。其中,每一层需要选中的元素用列表存放,传入loc的形式为[(level_0_list, level_1_list), cols]。例如,想要得到所有北大和复旦的大二大三学生,可以如下写出:

res = df_multi.loc[(['Peking University', 'Fudan University'], ['Sophomore', 'Junior']), :]
res.head()

下面的语句和上面类似,但仍然传入的是元素(这里为元组)的列表,它们的意义是不同的,表示的是选出北大的大三学生和复旦的大二学生:

res = df_multi.loc[[('Peking University', 'Junior'), ('Fudan University', 'Sophomore')]]
res.head()

想获取查询的子表的长度时,别用len了!!

result.shape[0] / shape[1]

indexSlice对象

前面介绍的方法,即使在索引不重复的时候,也只能对元组整体进行切片,而不能对每层进行切片,也不允许将切片和布尔列表混合使用,引入IndexSlice对象就能解决这个问题。Slice对象一共有两种形式,第一种为loc[idx[*,*]]型,第二种为loc[idx[*,*],idx[*,*]]

为了使用silce对象,先要进行定义:

idx = pd.IndexSlice
loc[idx[*,*]]型

这种情况并不能进行多层分别切片,前一个*表示行的选择,后一个*表示列的选择,与单纯的loc是类似的:

df_ex.loc[idx['C':, ('D', 'f'):]]
df_ex.loc[idx[:'A', lambda x:x.sum()>0]] # 列和大于0

------

loc[idx[*,*],idx[*,*]]型

这种情况能够分层进行切片,前一个idx指代的是行索引,后一个是列索引。
df_ex.loc[idx[:'A', 'b':], idx['E':, 'e':]]
但需要注意的是,此时不支持使用函数
例如:
df_ex.loc[idx[:'A', lambda x: 'b'], idx['E':, 'e':]]

多级索引构造

前面提到了多级索引表的结构和切片,那么除了使用set_index之外,如何自己构造多级索引呢?常用的有from_tuples, from_arrays, from_product三种方法,它们都是pd.MultiIndex对象下的函数。

from_tuples指根据传入由元组组成的列表进行构造:

my_tuple = [('a','cat'),('a','dog'),('b','cat'),('b','dog')]
pd.MultiIndex.from_tuples(my_tuple, names=['First','Second'])

from_arrays指根据传入列表中,对应层的列表进行构造:

my_array = [list('aabb'), ['cat', 'dog']*2]
pd.MultiIndex.from_arrays(my_array, names=['First','Second'])

from_product指根据给定多个列表的笛卡尔积进行构造:

my_list1 = ['a','b']
my_list2 = ['cat','dog']
pd.MultiIndex.from_product([my_list1, my_list2], names=['First','Second'])

构造举例:

p.random.seed(0)
L1,L2,L3 = ['A','B'],['a','b'],['alpha','beta']
mul_index1 = pd.MultiIndex.from_product([L1,L2,L3], names=('Upper', 'Lower','Extra'))
L4,L5,L6 = ['C','D'],['c','d'],['cat','dog']
mul_index2 = pd.MultiIndex.from_product([L4,L5,L6], names=('Big', 'Small', 'Other'))
df_ex = pd.DataFrame(np.random.randint(-9,10,(8,8)), index=mul_index1,  columns=mul_index2)
df_ex

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-riUavTPe-1681776922733)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647218897760.png)]

交换:

索引层的交换由swaplevelreorder_levels完成,前者只能交换两个层,而后者可以交换任意层,两者都可以指定交换的是轴是哪一个,即行索引或列索引:

df_ex.swaplevel(0,2,axis=1).head() # 列索引的第一层和第三层交换

df_ex.reorder_levels([2,0,1],axis=0).head() 
# 列表数字指代原来索引中的层
把原来第3层换到第1层,原来第1层换到第2层,原来第2层换到第3层

删除某一层:

df_ex.droplevel([0,1],axis=0/1)  #0是行索引,1是列索引

修改:

通过rename_axis可以对索引层的名字进行修改,常用的修改方式是传入字典的映射:

df_ex.rename_axis(index={'Upper':'Changed_row'}, columns={'Other':'Changed_Col'}).head()

通过rename可以对索引的值进行修改,如果是多级索引需要指定修改的层号level:
df_ex.rename(columns={'cat':'not_cat'}, level=2).head()

df_ex.rename(index=lambda x:str.upper(x), level=2).head()

另外一个需要介绍的函数是map,它是定义在Index上的方法,与前面rename方法中层的函数式用法是类似的,只不过它传入的不是层的标量值,而是直接传入索引的元组,这为用户进行跨层的修改提供了遍历
df_temp = df_ex.copy()
new_idx = df_temp.index.map(
lambda x: (x[0], x[1], str.upper(x[2])))
df_temp.index = new_idx
df_temp.head()

索引的设置与重置

索引的设置可以使用set_index完成,这里的主要参数是append,表示是否来保留原来的索引,直接把新设定的添加到原索引的内层:

df_new.set_index(['A','B'])

reset_indexset_index的逆函数,其主要参数是drop,表示是否要把去掉的索引层丢弃,而不是添加到列中:

df_new.reset_index(['D'],drop=False)

更改行列标签名字:

1.df.columns 查看当前行标签
  	df.indexs  = []
	df.columns = []新标签列表
2.DataFrame.rename(index={},columns={'原标签名':'新标签名'})
	df.rename(columns={"A":"a"})
	df.rename(index={0:'A'})
3.df.reindex(index=[...],columns=[...])	

多重索引:

df = pd.DataFrame({'x': [1, 2, 3, 4, 5, 6],
             'y': [10, 20, 30, 40, 50, 60]},
             index=pd.MultiIndex.from_product([['a', 'b', 'c'], [1, 2]],
             names=['let', 'num']))
             
In [242]: df
Out[242]: 
         x   y
let num       
a   1    1  10
    2    2  20
b   1    3  30
    2    4  40
c   1    5  50
    2    6  60

数据删除和填充:

NAN可以参与运算,None不能参与运算

all:用来检测行或者列中是否存在True

df.isnull().any(axis=1)

df.dropna(axis=0,how=‘any’)

在行中有任何一个none就就掉,如果how=all的话,一行所有的都是none就丢掉

df.fillna(value=填入值) 把已有的none自动填入数据

nf.fillna(method=‘ffill/bfill’,axis=0/1),向前/后填充,水平/上下

df.isnull() 缺失返回True,否则Flase,永远结合any,只要有True就返回True

df.notnull():缺失返回Flase,否则True,永远结合all,只要有True就返回True

读表格:pd.read_excel/csv(‘文件名+后缀’)

改行索引:

df.set_index(‘date’,inplace=True)

删除重复:

nf.drop_duplicates(keep = ‘first/last’)

级联

pd.concat(df1,df2,axis=1/0)

合并:
pd.merge(df1,df2,on='根据哪一列合并,即合并条件,合并的列都要有是共同的')

merge(df1,df2,how='inner/outner/right/left')

.dt 访问器

Series 提供一个可以简单、快捷地返回 datetime 属性值的访问器。这个访问器返回的也是 Series,索引与现有的 Series 一样。

s = pd.Series(pd.date_range('20130101 09:10:12', periods=4))
s.dt.hour
s.dt.second
s.dt.day

筛选:
s[s.dt.day == 2]

日期处理

还可以用 [Series.dt.strftime()datetime 的值当成字符串进行格式化,支持与标准 [strftime() 同样的格式。

s.dt.strftime('%Y/%m/%d')

df_dt.apply(lambda x: datetime.strftime(x, format))
或
df_dt.dt.strftime(format)

#将int转换成str
df_date = df['日期'].apply(str)
#用to_datetime()函数将字符串转换成时间格式,并增加'时间'字段
df['时间'] = pd.to_datetime(df_date,format='%Y/%m/%d')
print(df['时间'])
#将日期格式化,并增加'格式化日期'字段
df['格式化日期1'] = df.时间.apply(lambda x: datetime.
                               strftime(x, format='%Y-%m-%d'))
df['格式化日期2'] = df.时间.dt.strftime('%Y-%m-%d')
print(df['格式化日期1'],'\n',df['格式化日期2'])
#抽取'时间'字段中的值
df['时间.年'] = df['时间'].dt.year
df['时间.月'] = df['时间'].dt.month
df['时间.周'] = df['时间'].dt.weekday
df['时间.日'] = df['时间'].dt.day
df['时间.时'] = df['时间'].dt.hour
df['时间.分'] = df['时间'].dt.minute
df['时间.秒'] = df['时间'].dt.second

修改指定类型:

#法一:
dft = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})

dft[['a', 'b']] = dft[['a', 'b']].astype(np.uint8)

#法二:
dft1 = dft1.astype({'a': np.bool, 'c': np.float64})

Pandas 提供了多种函数可以把 object 从一种类型强制转为另一种类型。这是因为,数据有时存储的是正确类型,但在保存时却存成了 object 类型,此时,用 DataFrame.infer_objects()Series.infer_objects() 方法即可把数据转换为正确的类型。

df.infer_objects().dtypes

下列函数可以应用于一维数组与标量,执行硬转换,把对象转换为指定类型。

  • to_numeric() ,转换为数值型
In [370]: m = ['1.1', 2, 3]

In [371]: pd.to_numeric(m)
Out[371]: array([1.1, 2. , 3. ])
  • to_datetime() (opens new window),转换为 datetime 对象
In [372]: import datetime

In [373]: m = ['2016-07-09', datetime.datetime(2016, 3, 2)]

In [374]: pd.to_datetime(m)
Out[374]: DatetimeIndex(['2016-07-09', '2016-03-02'], dtype='datetime64[ns]', freq=None)

分组(Grouping)

groupby后会生成一个groupby对象,该对象不会返回任何内容

从上述的几个例子中不难看出,想要实现分组操作,必须明确三个要素:

分组依据、数据来源、操作及其返回结果。

同时从充分性的角度来说,如果明确了这三方面,就能确定一个分组操作,从而分组代码的一般模式即:

df.groupby(分组依据)[数据来源].使用操作

例如第一个例子中的代码就应该如下:

df.groupby('Gender')['Longevity'].mean()

基本内容:

  1. 根据某一列分组
  2. 根据某几列分组
  3. 组容量与组数
  4. 组的遍历
  5. level参数(多级索引)和axis参数

分组完想df可视化 : to_frame()

“group by” 指的是涵盖下列一项或多项步骤的处理流程:

  • 分割:按条件把数据分割成多组;
  • 应用:为每组单独应用函数;
  • 组合:将处理结果组合成一个数据结构
分组后取出一个分组:
df_group = df.groupby('...')
df_group.get_group(分组名)

根据几组分:df.groupby(['...'])

查看组的容量: group.size  返回的是表长乘以表宽的大小,但在groupby对象上表示统计每个组的元素个数

查看组数:group.ngroups

groups属性是获取分组的字典:gb.groups.item()/keys()

分完组然后选中列:df.groupby('...')[['col1,col2']].mean()

条件分组:

condition = df.Weight > df.Weight.mean()
df.groupby(condition)['Height'].mean()

根据上下四分位数分割,将体重分为high、normal、low三组,统计身高的均值
def split_weight(x):
    if x>df.Weight.quantile(0.75):
        return 'high'
    elif x
 df = pd.DataFrame(
 {'A': ['foo', 'bar', 'foo', 'bar',
                      'foo', 'bar', 'foo', 'foo'],
 'B': ['one', 'one', 'two', 'three',                          'two', 'two', 'one', 'three'],
 'C': np.random.randn(8),
 'D': np.random.randn(8)})
         		      
df.groupby('A').sum()
df.groupby(['A', 'B']).sum()

通过get_group方法可以直接获取所在组对应的行,此时必须知道组的具体名字:
gb.get_group(('Fudan University', 'Freshman'))

连续变量分组:
bins = [0,40,60,80,100]
cuts = pd.cut(df['Math'],bins=bin)
df.groupby(cuts)['Math'].count()

同时使用多个聚合函数:
group_m.agg('sum','mean','std')

group_m.agg({'Math':['sum','mean','std'],'Height':'var'})

group_m['Math'].agg(lambda x: x.max()-min())


1. 内置聚合函数

在介绍agg之前,首先要了解一些直接定义在groupby对象的聚合函数,因为它的速度基本都会经过内部的优化,使用功能时应当优先考虑。根据返回标量值的原则,包括如下函数:max/min/mean/median/count/all/any/idxmax/idxmin/mad/nunique/skew/quantile/sum/std/var/sem/size/prod

这些聚合函数当传入的数据来源包含多个列时,将按照列进行迭代计算:

gb = df.groupby('Gender')[['Height', 'Weight']]
gb.max()

agg方法

虽然在groupby对象上定义了许多方便的函数,但仍然有以下不便之处:

  • 无法同时使用多个函数
  • 无法对特定的列使用特定的聚合函数
  • 无法使用自定义的聚合函数
  • 无法直接对结果的列名在聚合前进行自定义命名

问题解决方法:

【a】使用多个函数

当使用多个聚合函数时,需要用列表的形式把内置聚合函数对应的字符串传入,先前提到的所有字符串都是合法的。
gb.agg(['sum', 'idxmax', 'skew'])

【b】对特定的列使用特定的聚合函数
对于方法和列的特殊对应,可以通过构造字典传入agg中实现,其中字典以列名为键,以聚合字符串或字符串列表为值。
gb.agg({'Height':['mean','max'], 'Weight':'count'})

【c】使用自定义函数

在agg中可以使用具体的自定义函数, 需要注意传入函数的参数是之前数据源中的列,逐列进行计算 。
gb.agg(lambda x: x.mean()-x.min())

由于传入的是序列,因此序列上的方法和属性都是可以在函数中使用的,只需保证返回值是标量即可。
下面的例子是指,如果组的指标均值,超过该指标的总体均值,返回High,否则返回Low。

def my_func(s):
    res = 'High'
    if s.mean() <= df[s.name].mean():
        res = 'Low'
    return res
gb.agg(my_func)

【d】聚合结果重命名

如果想要对聚合结果的列名进行重命名,只需要将上述函数的位置改写成元组,元组的第一个元素为新的名字,第二个位置为原来的函数,包括聚合字符串和自定义函数,现举若干例子说明:
gb.agg([('range', lambda x: x.max()-x.min()), ('my_sum', 'sum')])

gb.agg({'Height': [('my_func', my_func), 'sum'], 'Weight': lambda x:x.max()})

另外需要注意,使用对一个或者多个列使用单个聚合的时候,重命名需要加方括号,否则就不知道是新的名字还是手误输错的内置函数字符串:
gb.agg([('my_sum', 'sum')])

三、变换和过滤

变换函数的返回值为同长度的序列,最常用的内置变换函数是累计函数:cumcount/cumsum/cumprod/cummax/cummin,它们的使用方式和聚合函数类似,只不过完成的是组内累计操作。

当用自定义变换时需要使用transform方法,被调用的自定义函数,其传入值为数据源的序列其传入值为数据源的序列,与agg的传入类型是一致的,其最后的返回结果是行列索引与数据源一致的DataFrame

gb.transform(lambda x: (x-x.mean())/x.std()).head()

组过滤作为行过滤的推广,指的是如果对一个组的全体所在行进行统计的结果返回True则会被保留,False则该组会被过滤,最后把所有未被过滤的组其对应的所在行拼接起来作为DataFrame返回。

groupby对象中,定义了filter方法进行组的筛选,其中自定义函数的输入参数为数据源构成的DataFrame本身,在之前例子中定义的groupby对象中,传入的就是df[['Height', 'Weight']],因此所有表方法和属性都可以在自定义函数中相应地使用,同时只需保证自定义函数的返回为布尔值即可。

在原表中通过过滤得到所有容量大于100的组:
gb.filter(lambda x: x.shape[0] > 100).head()

分组apply用法:

def BMI(x):
    Height = x['Height']/100
    Weight = x['Weight']
    BMI_value = Weight/Height**2
    return BMI_value.mean()
gb.apply(BMI)

分组案例实战

先过滤出所属Country数超过2个的汽车,即若该汽车的Country在总体数据集中出现次数不超过2则剔除,再按Country分组计算价格均值、价格变异系数、该Country的汽车数量,其中变异系数的计算方法是标准差除以均值,并在结果中把变异系数重命名为CoV。
按照表中位置的前三分之一、中间三分之一和后三分之一分组,统计Price的均值。
对类型Type分组,对Price和HP分别计算最大值和最小值,结果会产生多级索引,请用下划线把多级列索引合并为单层索引。
对类型Type分组,对HP进行组内的min-max归一化。
对类型Type分组,计算Disp.与HP的相关系数。

df.groupby('Country').filter(lambda x:x.shape[0]>2)
.groupby('Country')['Price']
.agg([('CoV', lambda x: x.std()/x.mean()), 'mean', 'count'])

#表的长度为60
condition = ['Head']*20+['Mid']*20+['Tail']*20

df.groupby(condition)['Price'].mean()

res = df.groupby('Type').agg({'Price': ['max'], 'HP': ['min']})
# res.columns = res.columns.map(lambda x:'_'.join(x))
res.columns

res = df.groupby('Type')['Price','HP'].agg(['max','min'])
# res.columns = res,columns.map(lambda x:'_'.join(x))
res


Apply函数用法

apply函数会遍历指定的所有行或者列

  1. 标量返回

    df[['school','Math','Height']].groupby('school').apply(lambda x:x.max())
    
  2. 列表返回

    df[['school','Math','Height']].groupby('school')
    .apply(lambda x: pd.DataFrame({"col":values}))
    
  3. 数据框返回

criterion = ver['applicant_race_name_1'].map(lambda x: x.startswith('W'))

df2['..'] = df2['...'].map(str.strip)
df2.columns = df2.columns.str.upper
df['...'].apply(str.upper)

自定义函数:

自定义函数的接收值就是前面指定的行/列的值,经过处理后,return的值就是填充进去的

def my_mean(x):
     res = x.mean()
     return res
df_demo.apply(my_mean)

窗口对象

pandas中有3类窗口,分别是滑动窗口rolling、扩张窗口expanding以及指数加权窗口ewm。需要说明的是,以日期偏置为窗口大小的滑动窗口将在第十章讨论,指数加权窗口见本章练习。

1. 滑窗对象

要使用滑窗函数,就必须先要对一个序列使用.rolling得到滑窗对象,其最重要的参数为窗口大小window

s = pd.Series([1,2,3,4,5])
roller = s.rolling(window = 3)  #三个数据为一组的滑窗
roller

在得到了滑窗对象后,能够使用相应的聚合函数进行计算,需要注意的是窗口包含当前行所在的元素,例如在第四个位置进行均值运算时,应当计算(2+3+4)/3,而不是(1+2+3)/3:
roller.mean()
roller.sum()  #前面几个和后面几个会出现NAN值

滑动系数和协方差矩阵
roller.cov(s2)
roller.corr(s2)

支持传入自定义函数:
roller.apply(lambda x:x.mean())

滑窗函数:

shift, diff, pct_change是一组类滑窗函数,它们的公共参数为periods=n,默认为1

shift表示取向前第n个元素的值

diff与向前第n个元素做差(与Numpy中不同,后者表示n阶差分)

pct_change与向前第n个元素相比计算增长率。这里的n可以为负,表示反方向的类似操作。

s = pd.Series([1,3,6,10,15])
s.shift(2)
s.diff(3)

可用apply函数等价替换
s.rolling(3).apply(lambda x:list(x)[0]) # s.shift(2)
s.rolling(4).apply(lambda x:list(x)[-1]-list(x)[0]) # s.diff(3)

扩张窗口:

扩张窗口又称累计窗口,可以理解为一个动态长度的窗口,其窗口的大小就是从序列开始处到具体操作的对应位置,其使用的聚合函数会作用于这些逐步扩张的窗口上。具体地说,设序列为a1, a2, a3, a4,则其每个位置对应的窗口即[a1]、[a1, a2]、[a1, a2, a3]、[a1, a2, a3, a4]。

s = pd.Series([1, 3, 6, 10])
s.expanding().mean()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j2OPrmxR-1681776922734)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647178551663.png)]

Ex2:指数加权窗口

  1. 作为扩张窗口的ewm窗口

在扩张窗口中,用户可以使用各类函数进行历史的累计指标统计,但这些内置的统计函数往往把窗口中的所有元素赋予了同样的权重。事实上,可以给出不同的权重来赋给窗口中的元素,指数加权窗口就是这样一种特殊的扩张窗口。

其中,最重要的参数是alpha,它决定了默认情况下的窗口权重为=(1−),∈{0,1,…,}wi=(1−α)i,i∈{0,1,…,t},其中=i=t表示当前元素,=0i=0表示序列的第一个元素。

从权重公式可以看出,离开当前值越远则权重越小,若记原序列为x,更新后的当前元素为y_t,此时通过加权公式归一化后可知:

$$
\begin{split}y_t &=\frac{\sum_{i=0}^{t} w_i x_{t-i}}{\sum_{i=0}^{t} w_i} \
&=\frac{x_t + (1 - \alpha)x_{t-1} + (1 - \alpha)^2 x_{t-2} + …

  • (1 - \alpha)^{t} x_{0}}{1 + (1 - \alpha) + (1 - \alpha)^2 + …
  • (1 - \alpha)^{t}}\\end{split}
    $$

对于Series而言,可以用ewm对象如下计算指数平滑后的序列:

np.random.seed(0)
s = pd.Series(np.random.randint(-1,2,30).cumsum())
s.head()

s.ewm(alpha=0.2).mean().head()

作为滑动窗口的ewm窗口

从第1问中可以看到,ewm作为一种扩张窗口的特例,只能从序列的第一个元素开始加权。现在希望给定一个限制窗口n,只对包含自身的最近的n个元素作为窗口进行滑动加权平滑。请根据滑窗函数,给出新的wiyt的更新公式,并通过rolling窗口实现这一功能。

变形

一、长宽表的变形

什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:

一个表中把性别存储在某一个列中,那么它就是关于性别的长表;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BuX6hVsh-1681776922736)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336037964.png)]

如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AKKQesgJ-1681776922737)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336049468.png)]

pivot

pviot表具有三个参数,index,columns,values, pivot相关的三个参数允许被设置为列表,这也意味着会返回多级索引 .

利用pivot进行变形操作需要满足唯一性的要求,即由于在新表中的行列索引对应了唯一的value,因此原表中的indexcolumns对应两个列的行组合必须唯一。

将此表进行变形:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AmdAfn6T-1681776922739)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336658156.png)]

df.pivot(index='Name', columns='Subject', values='Grade')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V6I1kIR6-1681776922740)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336686939.png)]

多级索引变形:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o0uZDEUH-1681776922740)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336827247.png)]

pivot_multi = df.pivot(index = ['Class', 'Name'],
                       columns = ['Subject','Examination'], #将这两列变为列索引
                       values = ['Grade','rank'])
pivot_multi

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hWJgCVH3-1681776922741)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647336867260.png)]

pivot_table

如果我们想在pivot表的基础上进行统计计算或边缘合并,就得用到pivot_table

其中的aggfunc参数就是使用的聚合函数进行统计计算。上述场景可以如下写出:

df.pivot_table(index = 'Name',
               columns = 'Subject',
               values = 'Grade',
               aggfunc = lambda x:x.mean())

边缘合并:

可以通过设置margins=True来实现,其中边际的聚合方式与aggfunc中给出的聚合方法一致

df.pivot_table(index = 'Name',
               columns = 'Subject',
               values = 'Grade',
               aggfunc='mean',
               margins=True)

melt

melt表就是和pivot表的互逆转化

df_melted = df.melt(id_vars = ['Class', 'Name'], #行索引
                    value_vars = ['Chinese', 'Math'],	# 将这俩个列索引变成列的值
                    var_name = 'Subject',		# 上面变成列的列名字
                    value_name = 'Grade')		#变化后的列索引名
df_melted

wide_to_long

现在如果列中包含了交叉类别,比如期中期末的类别和语文数学的类别,那么想要把values_name对应的Grade扩充为两列分别对应语文分数和数学分数,只把期中期末的信息压缩,这种需求下就要使用wide_to_long函数来完成。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zfIIbBUr-1681776922743)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647337487641.png)]

就是说 列名中含有交叉组合的元素,我们可以把相同的部分提取出来变成新的两列,不同的部分拿出来变成索引

分割符后面的公共部分列名会提出来,分隔符前面为新增列名并保存分隔符后面的列的值

#加一个前缀名,即获得一个新的列,就能把要提取出来的列的值放进去

pd.wide_to_long(df,
               stubnames=['Chinese', 'Math'],新增的两列
                i = ['Class', 'Name'], 索引
                j='Examination', 新增的索引
                sep='_',  #列名分割符
                suffix='.+')                

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Bc9uoQdg-1681776922747)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647337629715.png)]

索引的变形

swaplevel或者reorder_levels进行索引内部的层交换,下面就要讨论行列索引之间行列索引之间的交换,由于这种交换带来了DataFrame维度上的变化,因此属于变形操作。在第一节中提到的4种变形函数与其不同之处在于,它们都属于某一列或几列元素元素和列索引列索引之间的转换,而不是索引之间的转换。

#构造
df = pd.DataFrame(np.ones((4,2)),
 index = pd.Index([('A', 'cat', 'big'),
 ('A', 'dog', 'small'),
 ('B', 'cat', 'big'),
 ('B', 'dog', 'small')]),
 columns=['col_1', 'col_2'])
 
unstack的主要参数是移动的层号,默认转化最内层,移动到列索引的最内层,同时支持同时转化多个层:
df.unstack(0/1/2)
df.unstack([0,2])

unstack相反,stack的作用就是把列索引的层压入行索引,其用法完全类似

df.stack(0/1/2)

变换完之后,记得reset_index(), 如果想改变列的位置,sort_index([‘往后移的列(想往前移的列的前面的列’])

3. get_dummies

get_dummies是用于特征构建的重要函数之一,其作用是把类别特征转为指示变量。例如,对年级一列转为指示变量,属于某一个年级的对应列标记为1,否则为0:

pd.get_dummies(df.Grade).head()

连接

merge函数基于 on=' ',how=' ', on是指定根据哪一个公共列连接,how是根据df1,还是df2 , 左右其实就是代码书写的顺序

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-okHRppfy-1681776922748)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647346037176.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QTFgKoIA-1681776922749)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647346026597.png)]


如果两个表中想要连接的列不具备相同的列名,可以通过left_onright_on指定:

df1 = pd.DataFrame({'df1_name':['San Zhang','Si Li'], 'Age':[20,30]})
df2 = pd.DataFrame({'df2_name':['Si Li','Wu Wang'], 'Gender':['F','M']})
df1.merge(df2, left_on='df1_name', right_on='df2_name', how='left')

如果两个表中的列出现了重复的列名,那么可以通过suffixes参数指定。例如合并考试成绩的时候,第一个表记录了语文成绩,第二个是数学成绩:

df1 = pd.DataFrame({'Name':['San Zhang'],'Grade':[70]})
df2 = pd.DataFrame({'Name':['San Zhang'],'Grade':[80]})
df1.merge(df2, on='Name', how='left', suffixes=['_Chinese','_Math'])

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-thVerRQB-1681776922750)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647346225585.png)]

在某些时候出现重复元素是麻烦的

例如两位同学来自不同的班级,但是姓名相同,这种时候就要指定on参数为多个列使得正确连接:

df1.merge(df2, on='Name', how='left') # 错误的结果
df1.merge(df2, on=['Name', 'Class'], how='left') # 正确的结果

从上面的例子来看,在进行基于唯一性的连接下,如果键不是唯一的,那么结果就会产生问题。举例中的行数很少,但如果实际数据中有几十万到上百万行的进行合并时,如果想要保证唯一性,除了用duplicated检查是否重复外,merge中也提供了validate参数来检查连接的唯一性模式。这里共有三种模式,

即一对一连接1:1,一对多连接1:m,多对一连接m:1连接,第一个是指左右表的键都是唯一的,后面两个分别指左表键唯一和右表键唯一。

直接用 validate=‘1:m’

索引连接

所谓索引连接,就是把索引当作键,因此这和值连接本质上没有区别,pandas中利用join函数来处理索引连接,它的参数选择要少于merge,除了必须的onhow之外,

可以对重复的列指定左右后缀lsuffixrsuffix

其中,on参数指索引名,单层索引时省略参数表示按照当前索引连接。

df1.join(df2, how='left')
df1.join(df2, how='left', lsuffix='_Chinese', rsuffix='_Math')

方向连接

有时候用户并不关心以哪一列为键来合并,只是希望把两个表或者多个表按照纵向或者横向拼接,为这种需求,pandas中提供了concat函数来实现。

concat中,最常用的有三个参数,它们是axis, join, keys,分别表示拼接方向,连接形式,以及在新表中指示来自于哪一张旧表的名字。这里需要特别注意,joinkeys与之前提到的join函数和键的概念没有任何关系。

在默认状态下的axis=0,表示纵向拼接多个表,常常用于多个样本的拼接;

axis=1表示横向拼接多个表,常用于多个字段或特征的拼接


虽然说concat是处理关系型合并的函数,但是它仍然是关于索引进行连接的。纵向拼接会根据列索引对齐,

默认状态下join=outer表示保留所有的列,并将不存在的值设为缺失;

join=inner表示保留两个表都出现过的列。横向拼接则根据行索引对齐,join参数可以类似设置。

**注意!!!,当确认要使用多表直接的方向合并时,尤其是横向的合并,可以先用reset_index方法恢复默认整数索引再进行合并,防止出现由索引的误对齐和重复索引的笛卡尔积带来的错误结果。 **

最后,keys参数的使用场景在于多个表合并后,用户仍然想要知道新表中的数据来自于哪个原表,这时可以通过keys参数产生多级索引进行标记。例如,第一个表中都是一班的同学,而第二个表中都是二班的同学,可以使用如下方式合并:

df1 = pd.DataFrame({'Name':['San Zhang','Si Li'], 'Age':[20,21]})
df2 = pd.DataFrame({'Name':['Wu Wang'],'Age':[21]})
pd.concat([df1, df2], keys=['one', 'two'])

序列与表的合并

利用concat可以实现多个表之间的方向拼接,如果想要把一个序列追加到表的行末或者列末,则可以分别使用appendassign方法。

append中,如果原表是默认整数序列的索引,那么可以使用ignore_index=True对新序列对应的索引自动标号,否则必须对Series指定name属性。

s = pd.Series(['Wu Wang', 21], index = df1.columns)
df1.append(s,ignore_index=True)

对于assign而言,虽然可以利用其添加新的列,但一般通过df['new_col'] = ...的形式就可以等价地添加新列。同时,使用[]修改的缺点是它会直接在原表上进行改动,而assign返回的是一个临时副本:

s = pd.Series([80, 90])
df1.assign(Grade=s)

表格错位问题

注意最后一列是"0:00:00"还是"00:00:00",加了用户id,时间在第5列

最优解: df.fillna(df['00:00:00'],inplace)  用最后一列的非空值去填补0:00:00的空值

def reset_table(df_,length):
    ddf= df_.iloc[length:,:]
    del ddf["00"]
    ddf.insert(5,"0:00",ddf["00:00:00"])
    del ddf["00:00:00"]
    ddf.rename(columns={"0:00":"0:00:00"},inplace=True)

    rdf = df_.iloc[:length-1,:]
    del rdf["00:00:00"]
    rdf.rename(columns={"00":"0:00:00"},inplace=True)
    df_1 = pd.concat([ddf,rdf],axis=0)
    return df_1
col_name=df3.columns.tolist()
col_name[5] ="00" 
df3.columns = col_name
reset_table(df3,14525)
-----
merge = pd.concat([df,df1,df2,df3,df4,df5],axis=0)
col_name=merge.columns.tolist()
col_name[4] ="00" 
merge.columns = col_name
df7=reset_table(merge,len(df))

-----
def get_userid(df):
    j=0
    i=0
    while(i!=len(df)):
        df.iloc[i,0] = get_user_id(df.iloc[i,2])
        j=j+1
        i=i+1
    return df

def get_user_id(v):
    for i,j in name_dict.items():
        if j==v:
            return i
    

文本数据

一、str对象

1. str对象的设计意图

str对象是定义在IndexSeries上的属性,专门用于处理每个元素的文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其str对象。

在Python标准库中也有str模块,为了使用上的便利,有许多函数的用法pandas照搬了它的设计,例如字母转为大写的操作:

var = 'abcd'
str.upper(var) # Python内置str模块

s.str.upper() # pandas中str对象上的upper方法

对于str对象而言,可理解为其对字符串进行了序列化的操作,例如在一般的字符串中,通过[]可以取出某个位置的元素:
var[0]
var[-1: 0: -2]
s.str[0]

最后需要注意的是,对于全体元素为数值类型的序列,即使其类型为object或者category也不允许直接使用str属性。如果需要把数字当成string类型处理,可以使用astype强制转换为string类型的Series

s = pd.Series([12, 345, 6789])
s.astype('string').str[1]

文本处理的五类操作

1. 拆分

str.split能够把字符串的列进行拆分,其中第一个参数为正则表达式,可选参数包括从左到右的最大拆分次数n,是否展开为多个列expand

s = pd.Series(['上海市黄浦区方浜中路249号', '上海市宝山区密山路5号'])
s.str.split('[市区路]')
s.str.split('[市区路]', n=2, expand=True)
不拆成列,就返回列表 ; 拆成列就一个值一个列

2. 合并

关于合并一共有两个函数,分别是str.joinstr.cat

str.join表示用某个连接符把Series中的字符串列表连接起来,如果列表中出现了非字符串元素则返回缺失值:

#值由元素列表构成
s = pd.Series([['a','b'], [1, 'a'], [['a', 'b'], 'c']])
s.str.join('-')

str.cat用于合并两个序列,主要参数为连接符sep、连接形式join以及缺失值替代符号na_rep,其中连接形式默认为以索引为键的左连接。

s1 = pd.Series(['a','b'])
s2 = pd.Series(['cat','dog'])
s1.str.cat(s2,sep='-')

s2.index = [1, 2]
s1.str.cat(s2, sep='-', na_rep='?', join='outer')

3. 匹配

str.contains返回了每个字符串是否包含正则模式的布尔序列

s = pd.Series(['my cat', 'he is fat', 'railway station'])
s.str.contains('\s\wat')

s.str.startswith('my')

s.str.match('m|h')


4. 替换

str.replacereplace并不是一个函数,在使用字符串替换时应当使用前者。

s = pd.Series(['a_1_b','c_?'])
s.str.replace('\d|\?', 'new', regex=True)

5. 提取

提取既可以认为是一种返回具体元素(而不是布尔值或元素对应的索引位置)的匹配操作,也可以认为是一种特殊的拆分操作。前面提到的str.split例子中会把分隔符去除,这并不是用户想要的效果,这时候就可以用str.extract进行提取:

pat = '(\w+市)(\w+区)(\w+路)(\d+号)'
s.str.extract(pat)

通过子组的命名,可以直接对新生成DataFrame的列命名:

pat = '(?P<市名>\w+市)(?P<区名>\w+区)(?P<路名>\w+路)(?P<编号>\d+号)'
s.str.extract(pat)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mCoP3M2h-1681776922752)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647418651419.png)]

str.extractall不同于str.extract只匹配一次,它会把所有符合条件的模式全部匹配出来,如果存在多个结果,则以多级索引的方式存储:

s = pd.Series(['A135T15,A26S5','B674S2,B25T6'], index = ['my_A','my_B'])
pat = '[A|B](\d+)[T|S](\d+)'
s.str.extractall(pat)

pat_with_name = '[A|B](?P\d+)[T|S](?P\d+)'
s.str.extractall(pat_with_name)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8UQO0jts-1681776922754)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647418836432.png)]

str对象函数:

upper, lower, title, capitalize, swapcase , strip, rstrip, lstrip

s.str.upper()

数值型

这里着重需要介绍的是pd.to_numeric方法,它虽然不是str对象上的方法,但是能够对字符格式的数值进行快速转换和筛选。

其主要参数包括errorsdowncast分别代表了非数值的处理模式和转换类型。

其中,对于不能转换为数值的有三种errors选项,

raise, coerce, ignore分别表示直接报错、设为缺失以及保持原来的字符串。

在数据清洗时,可以利用coerce的设定,快速查看非数值型的行:

s[pd.to_numeric(s, errors='coerce').isna()]

统计型函数

countlen的作用分别是返回出现正则模式的次数和字符串的长度:

s = pd.Series(['cat rat fat at', 'get feed sheet heat'])
s.str.count('[r|f]at|ee')
s.str.len()

对于填充型函数而言,pad是最灵活的,它可以选定字符串长度、填充的方向和填充内容:

s = pd.Series(['a','b','c'])
s.str.pad(5,'left/right/both','*')

分类数据

一、cat对象

1. cat对象的属性

pandas中提供了category类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用astype方法。

s = df.Grade.astype('category')
s.head()

在一个分类类型的Series中定义了cat对象,它和上一章中介绍的str对象类似,定义了一些属性和方法来进行分类类别的操作。

对于一个具体的分类,有两个组成部分,其一为类别的本身,它以Index类型存储,其二为是否有序,它们都可以通过cat的属性被访问:

s.cat.categories
s.cat.ordered

另外,每一个序列的类别会被赋予唯一的整数编号,它们的编号取决于cat.categories中的顺序,该属性可以通过codes访问:
s.cat.codes.head()

2. 类别的增加、删除和修改

通过cat对象的categories属性能够完成对类别的查询,那么应该如何进行“增改查删”的其他三个操作呢?

【NOTE】类别不得直接修改

在第三章中曾提到,索引 Index 类型是无法用 index_obj[0] = item 来修改的,而 categories 被存储在 Index 中,因此 pandascat 属性上定义了若干方法来达到相同的目的。

s = s.cat.add_categories('Graduate') # 增加一个毕业生类别
s = s.cat.remove_categories('Freshman')
s = s.cat.set_categories(['Sophomore','PhD']) # 新类别为大二学生和博士

s = s.cat.remove_unused_categories() # 移除了未出现的博士生类别

s = s.cat.rename_categories({'Sophomore':'本科二年级学生'})

有序分类

1. 序的建立

有序类别和无序类别可以通过as_unorderedreorder_categories互相转化,需要注意的是后者传入的参数必须是由当前序列的无序类别构成的列表,不能够增加新的类别,也不能缺少原来的类别,并且必须指定参数ordered=True,否则方法无效。

例如,对年级高低进行相对大小的类别划分,然后再恢复无序状态:

s = df.Grade.astype('category')
s = s.cat.reorder_categories(['Freshman', 'Sophomore', 'Junior', 'Senior'],ordered=True)

s.cat.as_unordered().head()

【NOTE】类别不得直接修改

如果不想指定ordered=True参数,那么可以先用s.cat.as_ordered()转化为有序类别,再利用reorder_categories进行具体的相对大小调整。

2. 排序和比较

在第二章中,曾提到了字符串和数值类型序列的排序,此时就要说明分类变量的排序:只需把列的类型修改为category后,再赋予相应的大小关系,就能正常地使用sort_indexsort_values

例如,对年级进行排序:

df.Grade = df.Grade.astype('category')
df.Grade = df.Grade.cat.reorder_categories(['Freshman', 'Sophomore', 'Junior', 'Senior'],ordered=True)

df.sort_values('Grade').head() # 值排序
df.set_index('Grade').sort_index().head() # 索引排序

由于序的建立,因此就可以进行比较操作。分类变量的比较操作分为两类,第一种是==!=关系的比较,比较的对象可以是标量或者同长度的Series(或list),第二种是>,>=,<,<=四类大小关系的比较,比较的对象和第一种类似,但是所有参与比较的元素必须属于原序列的categories,同时要和原序列具有相同的索引

res1 = df.Grade == 'Sophomore'
res3 = df.Grade <= 'Sophomore'
res4 = df.Grade <= df.Grade.sample(frac=1).reset_index(drop=True) # 打乱后比较
res4.head()

1. 利用cut和qcut进行区间构造

区间是一种特殊的类别,在实际数据分析中,区间序列往往是通过cutqcut方法进行构造的,这两个函数能够把原序列的数值特征进行装箱,即用区间位置来代替原来的具体数值。

首先介绍cut的常见用法:

其中,最重要的参数是bins,如果传入整数n,则代表把整个传入数组的按照最大和最小值等间距地分为n段。由于区间默认是左开右闭,需要在调整时把最小值包含进去,在pandas中的解决方案是在值最小的区间左端点再减去0.001*(max-min),因此如果对序列[1,2]划分为2个箱子时,第一个箱子的范围(0.999,1.5],第二个箱子的范围是(1.5,2]。如果需要指定左闭右开时,需要把right参数设置为False,相应的区间调整方法是在值最大的区间右端点再加上0.001*(max-min)

s = pd.Series([1,2])
pd.cut(s, bins=2)
pd.cut(s, bins=2, right=False)
#指定分割点
pd.cut(s, bins=[-np.infty, 1.2, 1.8, 2.2, np.infty])


另外两个常用参数为labelsretbins,分别代表了区间的名字和是否返回分割点(默认不返回):

s = pd.Series([1,2])
res = pd.cut(s, bins=2, labels=['small', 'big'], retbins=True)
res[0] #分割标签
res[1] #分割点

从用法上来说,qcutcut几乎没有差别,只是把bins参数变成的q参数,qcut中的q是指quantile。这里的q为整数n时,指按照n等分位数把数据分箱,还可以传入浮点列表指代相应的分位数分割点。

s = df.Weight
pd.qcut(s, q=3).head()
pd.qcut(s, q=[0,0.2,0.8,1]).head()

2. 一般区间的构造

对于某一个具体的区间而言,其具备三个要素,即左端点、右端点和端点的开闭状态,其中开闭状态可以指定right, left, both, neither中的一类:

my_interval = pd.Interval(0, 1, 'right')
my_interval

其属性包含了mid, length, right, left, closed,,分别表示中点、长度、右端点、左端点和开闭状态

  • 使用in可以判断元素是否属于区间

  • 使用overlaps可以判断两个区间是否有交集:

0.5 in my_interval

my_interval_2 = pd.Interval(0.5, 1.5, 'left')
my_interval.overlaps(my_interval_2)

一般而言,pd.IntervalIndex对象有四类方法生成,分别是from_breaks, from_arrays, from_tuples, interval_range,它们分别应用于不同的情况:

  • from_breaks的功能类似于cutqcut函数,只不过后两个是通过计算得到的分割点,而前者是直接传入自定义的分割点:
pd.IntervalIndex.from_breaks([1,3,6,10], closed='both')
  • from_arrays是分别传入左端点和右端点的列表,适用于有交集并且知道起点和终点的情况:
pd.IntervalIndex.from_arrays(left = [1,3,6,10], right = [5,4,9,11], closed = 'neither')
  • from_tuples传入的是起点和终点元组构成的列表:
pd.IntervalIndex.from_tuples([(1,5),(3,4),(6,9),(10,11)], closed='neither')
  • 一个等差的区间序列由起点、终点、区间个数和区间长度决定,其中三个量确定的情况下,剩下一个量就确定了,interval_range中的start, end, periods, freq参数就对应了这四个量,从而就能构造出相应的区间:
pd.interval_range(start=1,end=5,periods=8)

pd.interval_range(end=5,periods=8,freq=0.5)

除此之外,如果直接使用pd.IntervalIndex([...], closed=...),把Interval类型的列表组成传入其中转为区间索引,那么所有的区间会被强制转为指定的closed类型,因为pd.IntervalIndex只允许存放同一种开闭区间的Interval对象。

pd.IntervalIndex([my_interval, my_interval_2], closed='left')

3. 区间的属性与方法

IntervalIndex上也定义了一些有用的属性和方法。同时,如果想要具体利用cut或者qcut的结果进行分析,那么需要先将其转为该种索引类型:

id_interval = pd.IntervalIndex(pd.cut(s, 3))
id_interval[:3]

与单个Interval类型相似,IntervalIndex有若干常用属性:
left, right, mid, length
分别表示左右端点、两端点均值和区间长度。

id_demo.left/right/mid/length

IntervalIndex还有两个常用方法,包括contains和overlaps,分别指逐个判断每个区间是否有交集
id_demo.contains(4)
id_demo.overlaps(pd.Interval(40,60))

钻石数据集分类

  1. 分别对df.cutobject类型和category类型下使用nunique函数,并比较它们的性能。
  2. 钻石的切割质量可以分为五个等级,由次到好分别是Fair, Good, Very Good, Premium, Ideal,纯净度有八个等级,由次到好分别是I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF,请对切割质量按照由好到次的顺序排序,相同切割质量的钻石,按照纯净度进行由次到好的排序。
  3. 分别采用两种不同的方法,把cut, clarity这两列按照由好到次的顺序,映射到从0到n-1的整数,其中n表示类别的个数。
  4. 对每克拉的价格分别按照分位数(q=[0.2, 0.4, 0.6, 0.8])与[1000, 3500, 5500, 18000]割点进行分箱得到五个类别Very Low, Low, Mid, High, Very High,并把按这两种分箱方法得到的category序列依次添加到原表中。
  5. 第4问中按照整数分箱得到的序列中,是否出现了所有的类别?如果存在没有出现的类别请把该类别删除。
  6. 对第4问中按照分位数分箱得到的序列,求每个样本对应所在区间的左右端点值和长度。
df = pd.read_csv('../data/diamonds.csv') 
df.cut = df.cut.astype('category').cat.reorder_categories(['Fair', 'Good', 'Very Good', 'Premium', 'Ideal'],ordered=True)  
#对切割程度有序排序
#对纯净程度进行排序
df.clarity = df.clarity.astype('category').cat.reorder_categories(['I1', 'SI2', 'SI1', 'VS2', 'VS1', 'VVS2', 'VVS1', 'IF'],ordered=True)
#组合降序排序
res = df.sort_values(['cut', 'clarity'], ascending=[False, True])
res.head(3)

df.cut = df.cut.cat.reorder_categories(df.cut.cat.categories[::-1]) #df.cut.cat.categories[::-1] 让种类列表逆序排列,再根据逆序的种类排序
df.clarity = df.clarity.cat.reorder_categories(df.clarity.cat.categories[::-1])  


df.cut = df.cut.cat.codes # 方法一:利用cat.codes,把分类标签转换为数值类型
clarity_cat = df.clarity.cat.categories
df.clarity = df.clarity.replace(dict(zip(clarity_cat, np.arange(len(clarity_cat))))) 
# 方法二:使用replace映射,类别封装成数值索引字典,然后转换成类别


按分位数分割:
q = [0, 0.2, 0.4, 0.6, 0.8, 1]
point = [-np.infty, 1000, 3500, 5500, 18000, np.infty]
avg = df.price / df.carat

df['avg_cut'] = pd.cut(avg, bins=point, labels=['Very Low', 'Low', 'Mid', 'High', 'Very High'])
df['avg_qcut'] = pd.qcut(avg, q=q, labels=['Very Low', 'Low', 'Mid', 'High', 'Very High'])
df.head()

#查看有没有没有显示的种类
df.avg_cut.cat.categories
df.avg_cut.unique()
df.avg_cut = df.avg_cut.cat.remove_categories(['Very Low', 'Very High'])
df.avg_cut.head(3)

按照分位数分箱
interval_avg = pd.IntervalIndex(pd.qcut(avg, q=q))  
右端点区间和长度
interval_avg.right.to_series().reset_index(drop=True).head(3)
左端点区间和长度
interval_avg.left.to_series().reset_index(drop=True).head(3)

时序数据

  1. 第一,会出现时间戳(Date times)的概念,即’2020-9-7 08:00:00’和’2020-9-7 10:00:00’这两个时间点分别代表了上课和下课的时刻,在pandas中称为Timestamp

    同时,一系列的时间戳可以组成DatetimeIndex,而将它放到Series中后,Series的类型就变为了datetime64[ns],如果有涉及时区则为datetime64[ns, tz],其中tz是timezone的简写。

  2. 第二,会出现时间差(Time deltas)的概念,即上课需要的时间,两个Timestamp做差就得到了时间差,pandas中利用Timedelta来表示。类似的,一系列的时间差就组成了TimedeltaIndex, 而将它放到Series中后,Series的类型就变为了timedelta64[ns]

  3. 第三,会出现时间段(Time spans)的概念,即在8点到10点这个区间都会持续地在上课,在pandas利用Period来表示。类似的,一系列的时间段就组成了PeriodIndex, 而将它放到Series中后,Series的类型就变为了Period

  4. 第四,会出现日期偏置(Date offsets)的概念,假设你只知道9月的第一个周一早上8点要去上课,但不知道具体的日期,那么就需要一个类型来处理此类需求。再例如,想要知道2020年9月7日后的第30个工作日是哪一天,那么时间差就解决不了你的问题,从而pandas中的DateOffset就出现了。同时,pandas中没有为一列时间偏置专门设计存储类型,理由也很简单,因为需求比较奇怪,一般来说我们只需要对一批时间特征做一个统一的特殊日期偏置。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VGQctC38-1681776922755)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647523169516.png)]

由于时间段对象Period/PeriodIndex的使用频率并不高,因此将不进行讲解,而只涉及时间戳序列、时间差序列和日期偏置的相关内容。

1. Timestamp的构造与属性

单个时间戳的生成利用pd.Timestamp实现,一般而言的常见日期格式都能被成功地转换:

ts = pd.Timestamp('2020-1-1 08:10:30')

通过year, month, day, hour, min, second可以获取具体的数值:

ts.year/month/day/hour/minute/second/minute/second

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jE75ToqA-1681776922756)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647523907198.png)]

pd.Timestamp.max
pd.Timestamp.min
pd.Timestamp.max.year - pd.Timestamp.min.year

2. Datetime序列的生成

一组时间戳可以组成时间序列,可以用to_datetimedate_range来生成。其中,to_datetime能够把一列时间戳格式的对象转换成为datetime64[ns]类型的时间序列:

pd.to_datetime(['2020-1-1', '2020-1-3', '2020-1-6'])
df = pd.read_csv('../data/learn_pandas.csv')
s = pd.to_datetime(df.Test_Date)

在极少数情况,时间戳的格式不满足转换时,可以强制使用format进行匹配:

temp = pd.to_datetime(['2020\\1\\1','2020\\1\\3'],format='%Y\\%m\\%d')

注意上面由于传入的是列表,而非pandas内部的Series,因此返回的是DatetimeIndex,如果想要转为datetime64[ns]的序列,需要显式用Series转化:
pd.Series(temp).head()

另外,还存在一种把表的多列时间属性拼接转为时间序列的to_datetime操作,此时的列名必须和以下给定的时间关键词列名一致:
df_date_cols = pd.DataFrame({'year': [2020, 2020],
                             'month': [1, 1],
                             'day': [1, 2],
                             'hour': [10, 20],
                             'minute': [30, 50],
                             'second': [20, 40]})
pd.to_datetime(df_date_cols)

date_range是一种生成连续间隔时间的一种方法,其重要的参数为start, end, freq, periods,它们分别表示开始时间,结束时间,时间间隔,时间戳个数。其中,四个中的三个参数决定了,那么剩下的一个就随之确定了。

这里要注意,开始或结束日期如果作为端点则它会被包含:

pd.date_range('2020-1-1','2020-1-21', freq='10D') # 包含

最后,要介绍一种改变序列采样频率的方法asfreq,它能够根据给定的freq对序列进行类似于reindex的操作:

s = pd.Series(np.random.rand(5), index=pd.to_datetime(['2020-1-%d'%i for i in range(1,10,2)]))

s.asfreq('D') #精确到天数
s.asfreq('12H')#精确到小时

【NOTE】

前面提到了datetime64[ns]本质上可以理解为一个大整数,对于一个该类型的序列,可以使用max, min, mean,来取得最大时间戳、最小时间戳和“平均”时间戳。

3. dt对象

如同category, string的序列上定义了cat, str来完成分类数据和文本数据的操作,在时序类型的序列上定义了dt对象来完成许多时间序列的相关操作。这里对于datetime64[ns]类型而言,可以大致分为三类操作:取出时间相关的属性、判断时间戳是否满足条件、取整操作。

第一类操作的常用属性包括:date, time, year, month, day, hour, minute, second, microsecond, nanosecond, dayofweek, dayofyear, weekofyear, daysinmonth, quarter,其中daysinmonth, quarter分别表示该月一共有几天和季度。

在这些属性中,经常使用的是dayofweek,它返回了周中的星期情况,周一为0、周二为1,以此类推:

s.dt.dayofweek

此外,可以通过month_name, day_name返回英文的月名和星期名,注意它们是方法而不是属性:
s.dt.month_name()
s.dt.day_name()

第二类判断操作主要用于测试是否为月/季/年的第一天或者最后一天:

s.dt.is_year_start # 还可选 is_quarter/month_start
s.dt.is_year_end # 还可选 is_quarter/month_end

第三类的取整操作包含round, ceil, floor,它们的公共参数为freq,常用的包括H, min, S(小时、分钟、秒),所有可选的freq可参考此处

s = pd.Series(pd.date_range('2020-1-1 20:35:00', '2020-1-1 22:35:00', freq='45min'))
s

s.dt.round/ceil/floor('1H')  取整保留到小时

4. 时间戳的切片与索引

一般而言,时间戳序列作为索引使用。

如果想要选出某个子时间戳序列,

第一类方法是利用dt对象和布尔条件联合使用,

另一种方式是利用切片,后者常用于连续时间戳。下面,举一些例子说明:

s = pd.Series(np.random.randint(2,size=366), index=pd.date_range('2020-01-01','2020-12-31'))
idx = pd.Series(s.index).dt #日期索引器

Example1:每月的第一天或者最后一天
s[(idx.is_month_start|idx.is_month_end).values].head()

Example2:双休日
s[idx.dayofweek.isin([5,6]).values].head()

Example3:取出单日值
s['2020-01-01']
s['20200101'] # 自动转换标准格式

Example4:取出七月
s['2020-07'].head()

Example5:取出5月初至7月15日
s['2020-05':'2020-7-15'].head()

Timedelta的生成

正如在第一节中所说,时间差可以理解为两个时间戳的差,这里也可以通过pd.Timedelta来构造

pd.Timestamp('20200102 08:00:00')-pd.Timestamp('20200101 07:35:00')

生成时间差序列的主要方式是pd.to_timedelta,其类型为timedelta64[ns]

s = pd.to_timedelta(df.Time_Record)
s.head()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3RJpuurZ-1681776922757)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1647526158504.png)]

date_range一样,时间差序列也可以用timedelta_range来生成,它们两者具有一致的参数:

pd.timedelta_range('0s', '1000s', freq='6min')
pd.timedelta_range('0s', '1000s', periods=3)

对于Timedelta序列,同样也定义了dt对象,上面主要定义了的属性包括days, seconds, mircroseconds, nanoseconds,它们分别返回了对应的时间差特征。需要注意的是,这里的seconds不是指单纯的秒,而是对天数取余后剩余的秒数:

s.dt.seconds.head()
如果不想对天数取余而直接对应秒数,可以使用total_seconds
s.dt.total_seconds().head()

与时间戳序列类似,取整函数也是可以在dt对象上使用的:
pd.to_timedelta(df.Time_Record).dt.round('min').head()

2. Timedelta的运算

时间差支持的常用运算有三类:与标量的乘法运算、与时间戳的加减法运算、与时间差的加减法与除法运算:

td1 = pd.Timedelta(days=1)
td2 = pd.Timedelta(days=3)
ts = pd.Timestamp('20200101')

td1 * 2
td2 - td1
ts + td1

这些运算都可以移植到时间差的序列上:

td1 = pd.timedelta_range(start='1 days', periods=5)
td2 = pd.timedelta_range(start='12 hours', freq='2H', periods=5)
ts = pd.date_range('20200101', '20200105')
td1 * 5

td1 + pd.Timestamp('20200101')
td1 + ts # 逐个相加

四、日期偏置

1. Offset对象

日期偏置是一种和日历相关的特殊时间差,例如回到第一节中的两个问题:如何求2020年9月第一个周一的日期,以及如何求2020年9月7日后的第30个工作日是哪一天。

pd.Timestamp('20200831') + pd.offsets.WeekOfMonth(week=0,weekday=0)

pd.Timestamp('20200907') + pd.offsets.BDay(30)

从上面的例子中可以看到,Offset对象在pd.offsets中被定义。当使用+时获取离其最近的下一个日期,当使用-时获取离其最近的上一个日期:

d.Timestamp('20200831') - pd.offsets.WeekOfMonth(week=0,weekday=0)

pd.Timestamp('20200907') - pd.offsets.BDay(30)

pd.Timestamp('20200907') + pd.offsets.MonthEnd()

常用的日期偏置如下可以查阅这里的文档描述。在文档罗列的Offset中,需要介绍一个特殊的Offset对象CDay,其中的holidays, weekmask参数能够分别对自定义的日期和星期进行过滤,

holidays传入了需要过滤的日期列表,weekmask传入的是三个字母的星期缩写构成的星期字符串,其作用是只保留字符串中出现的星期

my_filter = pd.offsets.CDay(n=1,weekmask='Wed Fri',holidays=['20200109'])
dr = pd.date_range('20200108', '20200111')
dr.to_series().dt.dayofweek
#结果显示中,没有了星期三和星期五,不计算这俩天

2. 偏置字符串

前面提到了关于date_rangefreq取值可用Offset对象,同时在pandas中几乎每一个Offset对象绑定了日期偏置字符串(frequencies strings/offset aliases),可以指定Offset对应的字符串来替代使用。下面举一些常见的例子。

pd.date_range('20200101','20200331', freq='MS') # 只生成月初
pd.date_range('20200101','20200331', freq='M') # 只生成月末
pd.date_range('20200101','20200110', freq='B') # 工作日
pd.date_range('20200101','20200201', freq='W-MON') # 周一,W代表week

时序中的滑窗与分组

1. 滑动窗口

所谓时序的滑窗函数,即把滑动窗口用freq关键词代替

下面给出一个具体的应用案例:在股票市场中有一个指标为BOLL指标,它由中轨线、上轨线、下轨线这三根线构成,具体的计算方法分别是N日均值线、N日均值加两倍N日标准差线、N日均值减两倍N日标准差线。利用rolling对象计算N=30BOLL指标可以如下写出:

import matplotlib.pyplot as plt
idx = pd.date_range('20200101', '20201231', freq='B')
np.random.seed(2020)
data = np.random.randint(-1,2,len(idx)).cumsum() # 随机游动构造模拟序列
s = pd.Series(data,index=idx)
s.head()

r = s.rolling('30D') #30天间隔的滑动窗口
plt.plot(s)
plt.title('BOLL LINES')
plt.plot(r.mean())
plt.plot(r.mean()+r.std()*2)
plt.plot(r.mean()-r.std()*2)

对于shift函数而言,作用在datetime64为索引的序列上时,可以指定freq单位进行滑动:

s.shift(freq='50D').head()

另外,datetime64[ns]的序列进行diff后就能够得到timedelta64[ns]的序列,这能够使用户方便地观察有序时间序列的间隔:

my_series = pd.Series(s.index)
my_series.diff(1).head()

2. 重采样

重采样对象resample和第四章中分组对象groupby的用法类似,前者是针对时间序列的分组计算而设计的分组对象。

例如,对上面的序列计算每10天的均值:

s.resample('10D').mean().head()

同时,如果没有内置定义的处理函数,可以通过apply方法自定义:

s.resample('10D').apply(lambda x:x.max()-x.min()).head() # 极差

resample中要特别注意组边界值的处理情况,默认情况下起始值的计算方法是从最小值时间戳对应日期的午夜00:00:00开始增加freq,直到不超过该最小时间戳的最大时间戳,由此对应的时间戳为起始值,然后每次累加freq参数作为分割结点进行分组,区间情况为左闭右开。

dx = pd.date_range('20200101 8:26:35', '20200101 9:31:58', freq='77s')
data = np.random.randint(-1,2,len(idx)).cumsum()
s = pd.Series(data,index=idx)
s.head()

下面对应的第一个组起始值为08:24:00,其是从当天0点增加72个freq=7 min得到的,如果再增加一个freq则超出了序列的最小时间戳08:26:35:
s.resample('7min').mean().head()  #从8:24开始

有时候,用户希望从序列的最小时间戳开始依次增加freq进行分组,此时可以指定origin参数为start

s.resample('7min', origin='start').mean().head()

在返回值中,要注意索引一般是取组的第一个时间戳,但M, A, Q, BM, BA, BQ, W这七个是取对应区间的最后一个时间戳:

太阳辐射数据集

  1. Datetime, Time合并为一个时间列Datetime,同时把它作为索引后排序。
  2. 每条记录时间的间隔显然并不一致,请解决如下问题:
  • 找出间隔时间的前三个最大值所对应的三组时间戳。
  • 是否存在一个大致的范围,使得绝大多数的间隔时间都落在这个区间中?如果存在,请对此范围内的样本间隔秒数画出柱状图,设置bins=50
  1. 求如下指标对应的Series
  • 温度与辐射量的6小时滑动相关系数
  • 以三点、九点、十五点、二十一点为分割,该观测所在时间区间的温度均值序列
  • 每个观测6小时前的辐射量(一般而言不会恰好取到,此时取最近时间戳对应的辐射量)
df['Date'] =  df.Data.str.extract('([/|\w]+\s).+')[0]+df.Time

df['Date'] = pd.to_datetime(df['Date'])
df = df.drop(columns=['Data','Time']).set_index('Date').sort_index()

s = df.index.to_series().reset_index(drop=True).diff().dt.total_seconds()
max_3 = s.nlargest(3).index
df.index[max_3.union(max_3-1)]

res = s.mask((s>s.quantile(0.99))|(s

苹果销售数据集

  1. 统计如下指标:
  • 每月上半月(15号及之前)与下半月葡萄销量的比值
  • 每月最后一天的生梨销量总和
  • 每月最后一天工作日的生梨销量总和
  • 每月最后五天的苹果销量均值
  1. 按月计算周一至周日各品种水果的平均记录条数,行索引外层为水果名称,内层为月份,列索引为星期。
  2. 按天计算向前10个工作日窗口的苹果销量均值序列,非工作日的值用上一个工作日的结果填充。
# df.Date = pd.to_datetime(df.Date)
df_grape = df.query("Fruit == 'Grape'")
res = df_grape.groupby([np.where(df_grape.Date.dt.day<=15,'First', 'Second'), #利用np.where把一个月分成两组,给出命名
                        df_grape.Date.dt.month])['Sale'].mean().to_frame().unstack(0) .droplevel(0,axis=1)
#unstack把first和second转成列索引,droplevel删除外层索引

res = (res.First/res.Second).rename_axis('Month')
res.head()


df[df.Date.dt.is_month_end].query("Fruit == 'Pear'").groupby('Date').Sale.sum().head()


df[df.Date.isin(pd.date_range('20190101', '20191231',freq='BM'))].query("Fruit == 'Pear'").groupby('Date').Sale.mean().head()

#选出时间,按照月份分组,取出每月的时间的最后5个
target_dt = df.drop_duplicates().groupby(df.Date.drop_duplicates().dt.month)['Date'].nlargest(5).reset_index(drop=True)
res = df.set_index('Date').loc[target_dt].reset_index().query("Fruit == 'Apple'") 
#最后5天苹果的销售量
res = res.groupby(res.Date.dt.month)['Sale'].mean().rename_axis('Month') 
#苹果的销售记录再按月分类,取均值
res.head()


month_order = ['January','February','March','April','May','June','July','August','September','October','November','December']
week_order = ['Mon','Tue','Wed','Thu','Fri','Sat','Sum']
#把月份的名字分类然后转化为自定义的月份名字
group1 = df.Date.dt.month_name().astype('category').cat.reorder_categories(month_order, ordered=True)

group2 = df.Fruit
# 生成序号数值和字符串的映射字典,把每周每天的名字转化为自定义的名字
group3 = df.Date.dt.dayofweek.replace(dict(zip(range(7),week_order))).astype('category').cat.reorder_categories(week_order, ordered=True)

res = df.groupby([group1, group2,group3])['Sale'].count().to_frame().unstack(0).droplevel(0,axis=1)

res.head()


df_apple = df[(df.Fruit=='Apple')&(~df.Date.dt.dayofweek.isin([5,6]))]  # 非工作日的苹果销售记录
s = pd.Series(df_apple.Sale.values,index=df_apple.Date).groupby('Date').sum() # 对苹果销售记录,构造Series
res = s.rolling('10D').mean().reindex(pd.date_range('20190101','20191231')).fillna(method='ffill')  #重新构造连续时间戳,空值前向填充
res.head()

Matplotilb:

基础知识:

Figure的组成

现在我们来深入看一下figure的组成。通过一张figure解剖图,我们可以看到一个完整的matplotlib图像通常会包括以下四个层级,这些层级也被称为容器(container),下一节会详细介绍。在matplotlib的世界中,我们将通过各种命令方法来操纵图像中的每一个部分,从而达到数据可视化的最终效果,一副完整的图像实际上是各类子元素的集合。

  • Figure:顶层级,用来容纳所有绘图元素
  • Axes:matplotlib宇宙的核心,容纳了大量元素用来构造一幅幅子图,一个figure可以由一个或多个子图组成
  • Axis:axes的下属层级,用于处理所有和坐标轴,网格有关的元素
  • Tick:axis的下属层级,用来处理所有和刻度有关的元素

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oc5bW0xi-1681776922758)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1648899475619.png)]

matplotlib提供了两种最常用的绘图接口,在最后的思考题中请思考两种模式的主要区别

  1. 显式创建figure和axes,在上面调用绘图方法,也被称为OO模式(object-oriented style)
  2. 依赖pyplot自动创建figure和axes,并绘图
#第一种
x = np.linspace(0, 2, 100)

fig, ax = plt.subplots()  
ax.plot(x, x, label='linear')  
ax.plot(x, x**2, label='quadratic')  
ax.plot(x, x**3, label='cubic')  
ax.set_xlabel('x label') 
ax.set_ylabel('y label') 
ax.set_title("Simple Plot")  
ax.legend() 

#第二种
x = np.linspace(0, 2, 100)

plt.plot(x, x, label='linear') 
plt.plot(x, x**2, label='quadratic')  
plt.plot(x, x**3, label='cubic')
plt.xlabel('x label')
plt.ylabel('y label')
plt.title("Simple Plot")
plt.legend()

绘图模板

matplotlib提供了两种最常用的绘图接口,在最后的思考题中请思考两种模式的主要区别

  1. 显式创建figure和axes,在上面调用绘图方法,也被称为OO模式(object-oriented style)
  2. 依赖pyplot自动创建figure和axes,并绘图
# step1 准备数据
x = np.linspace(0, 2, 100)
y = x**2

# step2 设置绘图样式,这一模块的扩展参考第五章进一步学习,这一步不是必须的,样式也可以在绘制图像是进行设置
mpl.rc('lines', linewidth=4, linestyle='-.')

# step3 定义布局, 这一模块的扩展参考第三章进一步学习
fig, ax = plt.subplots()  

# step4 绘制图像, 这一模块的扩展参考第二章进一步学习
ax.plot(x, y, label='linear')  

# step5 添加标签,文字和图例,这一模块的扩展参考第四章进一步学习
ax.set_xlabel('x label') 
ax.set_ylabel('y label') 
ax.set_title("Simple Plot")  
ax.legend() 

matplotlib的三层api

matplotlib的原理或者说基础逻辑是,用Artist对象在画布(canvas)上绘制(Render)图形。
就和人作画的步骤类似:

  1. 准备一块画布或画纸
  2. 准备好颜料、画笔等制图工具
  3. 作画

所以matplotlib有三个层次的API:

matplotlib.backend_bases.FigureCanvas 代表了绘图区,所有的图像都是在绘图区完成的
matplotlib.backend_bases.Renderer 代表了渲染器,可以近似理解为画笔,控制如何在 FigureCanvas 上画图。
matplotlib.artist.Artist 代表了具体的图表组件,即调用了Renderer的接口在Canvas上作图。
前两者处理程序和计算机的底层交互的事项,第三项Artist就是具体的调用接口来做出我们想要的图,比如图形、文本、线条的设定。所以通常来说,我们95%的时间,都是用来和matplotlib.artist.Artist类打交道的。

Artist的分类

Artist有两种类型:primitivescontainers

primitive是基本要素,它包含一些我们要在绘图区作图用到的标准图形对象,如曲线Line2D,文字text,矩形Rectangle,图像image等。

container是容器,即用来装基本要素的地方,包括图形figure、坐标系Axes和坐标轴Axis。他们之间的关系如下图所示

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jifQyhBI-1681776922759)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1648899793084.png)]

可视化中常见的artist类可以参考下图这张表格,解释下每一列的含义。
第一列表示matplotlib中子图上的辅助方法,可以理解为可视化中不同种类的图表类型,如柱状图,折线图,直方图等,这些图表都可以用这些辅助方法直接画出来,属于更高层级的抽象。

第二列表示不同图表背后的artist类,比如折线图方法plot在底层用到的就是Line2D这一artist类。

第三列是第二列的列表容器,例如所有在子图中创建的Line2D对象都会被自动收集到ax.lines返回的列表中。

下一节的具体案例更清楚地阐释了这三者的关系,其实在很多时候,我们只用记住第一列的辅助方法进行绘图即可,而无需关注具体底层使用了哪些类,但是了解底层类有助于我们绘制一些复杂的图表,因此也很有必要了解。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AQNc5onc-1681776922760)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1648899878845.png)]

基本元素 - primitives

各容器中可能会包含多种基本要素-primitives, 所以先介绍下primitives,再介绍容器。

本章重点介绍下 primitives 的几种类型:曲线-Line2D,矩形-Rectangle,多边形-Polygon,图像-image

1. 2DLines

在matplotlib中曲线的绘制,主要是通过类 matplotlib.lines.Line2D 来完成的。

matplotlib中线-line的含义:它表示的可以是连接所有顶点的实线样式,也可以是每个顶点的标记。此外,这条线也会受到绘画风格的影响,比如,我们可以创建虚线种类的线。

它的构造函数:

class matplotlib.lines.Line2D(xdata, ydata, linewidth=None, linestyle=None, color=None, marker=None, markersize=None, markeredgewidth=None, markeredgecolor=None, markerfacecolor=None, markerfacecoloralt='none', fillstyle=None, antialiased=None, dash_capstyle=None, solid_capstyle=None, dash_joinstyle=None, solid_joinstyle=None, pickradius=5, drawstyle=None, markevery=None, **kwargs)

其中常用的的参数有:

  • xdata:需要绘制的line中点的在x轴上的取值,若忽略,则默认为range(1,len(ydata)+1)
  • ydata:需要绘制的line中点的在y轴上的取值
  • linewidth:线条的宽度
  • linestyle:线型
  • color:线条的颜色
  • marker:点的标记,详细可参考markers API
  • markersize:标记的size

其他详细参数可参考Line2D官方文档

如何绘制lines

  1. 绘制直线line
  2. errorbar绘制误差折线图

介绍两种绘制直线line常用的方法:

  • plot方法绘制
  • Line2D对象绘制
# 1. plot方法绘制
x = range(0,5)
y1 = [2,5,7,8,10]
y2= [3,6,8,9,11]

fig,ax= plt.subplots()
ax.plot(x,y1)
ax.plot(x,y2)
print(ax.lines); # 通过直接使用辅助方法画线,打印ax.lines后可以看到在matplotlib在底层创建了两个Line2D对象


# 2. Line2D对象绘制
x = range(0,5)
y1 = [2,5,7,8,10]
y2= [3,6,8,9,11]
fig,ax= plt.subplots()
lines = [Line2D(x, y1), Line2D(x, y2,color='orange')]  # 显式创建Line2D对象
for line in lines:
    ax.add_line(line) # 使用add_line方法将创建的Line2D添加到子图中
ax.set_xlim(0,4)
ax.set_ylim(2, 11);

2) errorbar绘制误差折线图
pyplot里有个专门绘制误差线的功能,通过errorbar类实现,它的构造函数:

matplotlib.pyplot.errorbar(x, y, yerr=None, xerr=None, fmt=‘’, ecolor=None, elinewidth=None, capsize=None, barsabove=False, lolims=False, uplims=False, xlolims=False, xuplims=False, errorevery=1, capthick=None, *, data=None, **kwargs)

其中最主要的参数是前几个:

  • x:需要绘制的line中点的在x轴上的取值
  • y:需要绘制的line中点的在y轴上的取值
  • yerr:指定y轴水平的误差
  • xerr:指定x轴水平的误差
  • fmt:指定折线图中某个点的颜色,形状,线条风格,例如‘co–’
  • ecolor:指定error bar的颜色
  • elinewidth:指定error bar的线条宽度
fig = plt.figure()
x = np.arange(10)
y = 2.5 * np.sin(x / 20 * np.pi)
yerr = np.linspace(0.05, 0.2, 10)
plt.errorbar(x, y + 3, yerr=yerr, label='both limits (default)');

2. patches

matplotlib.patches.Patch类是二维图形类,并且它是众多二维图形的父类,它的所有子类见matplotlib.patches API ,
Patch类的构造函数:

Patch(edgecolor=None, facecolor=None, color=None, linewidth=None, linestyle=None, antialiased=None, hatch=None, fill=True, capstyle=None, joinstyle=None, **kwargs)

本小节重点讲述三种最常见的子类,矩形,多边形和楔型。

a. Rectangle-矩形

Rectangle矩形类在官网中的定义是: 通过锚点xy及其宽度和高度生成。 Rectangle本身的主要比较简单,即xy控制锚点,width和height分别控制宽和高。它的构造函数:

class matplotlib.patches.Rectangle(xy, width, height, angle=0.0, **kwargs)

在实际中最常见的矩形图是**hist直方图bar条形图**。

1) hist-直方图

matplotlib.pyplot.hist(x,bins=None,range=None, density=None, bottom=None, histtype=‘bar’, align=‘mid’, log=False, color=None, label=None, stacked=False, normed=None)

下面是一些常用的参数:

  • x: 数据集,最终的直方图将对数据集进行统计
  • bins: 统计的区间分布
  • range: tuple, 显示的区间,range在没有给出bins时生效
  • density: bool,默认为false,显示的是频数统计结果,为True则显示频率统计结果,这里需要注意,频率统计结果=区间数目/(总数*区间宽度),和normed效果一致,官方推荐使用density
  • histtype: 可选{‘bar’, ‘barstacked’, ‘step’, ‘stepfilled’}之一,默认为bar,推荐使用默认配置,step使用的是梯状,stepfilled则会对梯状内部进行填充,效果与bar类似
  • align: 可选{‘left’, ‘mid’, ‘right’}之一,默认为’mid’,控制柱状图的水平分布,left或者right,会有部分空白区域,推荐使用默认
  • log: bool,默认False,即y坐标轴是否选择指数刻度
  • stacked: bool,默认为False,是否为堆积状图

2) bar-柱状图

matplotlib.pyplot.bar(left, height, alpha=1, width=0.8, color=, edgecolor=, label=, lw=3)

下面是一些常用的参数:

  • left:x轴的位置序列,一般采用range函数产生一个序列,但是有时候可以是字符串
  • height:y轴的数值序列,也就是柱形图的高度,一般就是我们需要展示的数据;
  • alpha:透明度,值越小越透明
  • width:为柱形图的宽度,一般这是为0.8即可;
  • color或facecolor:柱形图填充的颜色;
  • edgecolor:图形边缘颜色
  • label:解释每个图像代表的含义,这个参数是为legend()函数做铺垫的,表示该次bar的标签

有两种方式绘制柱状图

  • bar绘制柱状图
  • Rectangle矩形类绘制柱状图
# bar绘制柱状图
y = range(1,17)
plt.bar(np.arange(16), y, alpha=0.5, width=0.5, color='yellow', edgecolor='red', label='The First Bar', lw=3);

# Rectangle矩形类绘制柱状图
fig = plt.figure()
ax1 = fig.add_subplot(111)

for i in range(1,17):
    rect =  plt.Rectangle((i+0.25,0),0.5,i)
    ax1.add_patch(rect)
ax1.set_xlim(0, 16)
ax1.set_ylim(0, 16);

b. Polygon-多边形

matplotlib.patches.Polygon类是多边形类。它的构造函数:

class matplotlib.patches.Polygon(xy, closed=True, **kwargs)

xy是一个N×2的numpy array,为多边形的顶点。
closed为True则指定多边形将起点和终点重合从而显式关闭多边形。

matplotlib.patches.Polygon类中常用的是fill类,它是基于xy绘制一个填充的多边形,它的定义:

matplotlib.pyplot.fill(*args, data=None, **kwargs)

参数说明 : 关于x、y和color的序列,其中color是可选的参数,每个多边形都是由其节点的x和y位置列表定义的,后面可以选择一个颜色说明符。您可以通过提供多个x、y、[颜色]组来绘制多个多边形。

# 用fill来绘制图形
x = np.linspace(0, 5 * np.pi, 1000) 
y1 = np.sin(x)
y2 = np.sin(2 * x) 
plt.fill(x, y1, color = "g", alpha = 0.3);

Wedge-契形

matplotlib.patches.Polygon类是多边形类。其基类是matplotlib.patches.Patch,它的构造函数:

class matplotlib.patches.Wedge(center, r, theta1, theta2, width=None, **kwargs)

一个Wedge-契形 是以坐标x,y为中心,半径为r,从θ1扫到θ2(单位是度)。
如果宽度给定,则从内半径r -宽度到外半径r画出部分楔形。wedge中比较常见的是绘制饼状图。

matplotlib.pyplot.pie语法:

matplotlib.pyplot.pie(x, explode=None, labels=None, colors=None, autopct=None, pctdistance=0.6, shadow=False, labeldistance=1.1, startangle=0, radius=1, counterclock=True, wedgeprops=None, textprops=None, center=0, 0, frame=False, rotatelabels=False, *, normalize=None, data=None)

制作数据x的饼图,每个楔子的面积用x/sum(x)表示。
其中最主要的参数是前4个:

  • x:契型的形状,一维数组。
  • explode:如果不是等于None,则是一个len(x)数组,它指定用于偏移每个楔形块的半径的分数。
  • labels:用于指定每个契型块的标记,取值是列表或为None。
  • colors:饼图循环使用的颜色序列。如果取值为None,将使用当前活动循环中的颜色。
  • startangle:饼状图开始的绘制的角度。
labels = 'Frogs', 'Hogs', 'Dogs', 'Logs'
sizes = [15, 30, 45, 10] 
explode = (0, 0.1, 0, 0) 

fig1, ax1 = plt.subplots() 
ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%', shadow=True, startangle=90) 
ax1.axis('equal'); # Equal aspect ratio ensures that pie is drawn as a circle. 

3. collections

collections类是用来绘制一组对象的集合,collections有许多不同的子类,如RegularPolyCollection, CircleCollection, Pathcollection, 分别对应不同的集合子类型。其中比较常用的就是散点图,它是属于PathCollection子类,scatter方法提供了该类的封装,根据x与y绘制不同大小或颜色标记的散点图。 它的构造方法:

Axes.scatter(self, x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=, edgecolors=None, *, plotnonfinite=False, data=None, **kwargs)

其中最主要的参数是前5个:

  • x:数据点x轴的位置
  • y:数据点y轴的位置
  • s:尺寸大小
  • c:可以是单个颜色格式的字符串,也可以是一系列颜色
  • marker: 标记的类型
# 用scatter绘制散点图
x = [0,2,4,6,8,10] 
y = [10]*len(x) 
s = [20*2**n for n in range(len(x))] 
plt.scatter(x,y,s=s) 

4. images

images是matplotlib中绘制image图像的类,其中最常用的imshow可以根据数组绘制成图像,它的构造函数:

class matplotlib.image.AxesImage(ax, cmap=None, norm=None, interpolation=None, origin=None, extent=None, filternorm=True, filterrad=4.0, resample=False, **kwargs)

imshow根据数组绘制图像

matplotlib.pyplot.imshow(X, cmap=None, norm=None, aspect=None, interpolation=None, alpha=None, vmin=None, vmax=None, origin=None, extent=None, shape=, filternorm=1, filterrad=4.0, imlim=, resample=None, url=None, *, data=None, **kwargs)

使用imshow画图时首先需要传入一个数组,数组对应的是空间内的像素位置和像素点的值,interpolation参数可以设置不同的差值方法,具体效果如下。

methods = [None, 'none', 'nearest', 'bilinear', 'bicubic', 'spline16',
           'spline36', 'hanning', 'hamming', 'hermite', 'kaiser', 'quadric',
           'catrom', 'gaussian', 'bessel', 'mitchell', 'sinc', 'lanczos']


grid = np.random.rand(4, 4)

fig, axs = plt.subplots(nrows=3, ncols=6, figsize=(9, 6),
                        subplot_kw={'xticks': [], 'yticks': []})

for ax, interp_method in zip(axs.flat, methods):
    ax.imshow(grid, interpolation=interp_method, cmap='viridis')
    ax.set_title(str(interp_method))

plt.tight_layout();

三、对象容器 - Object container

容器会包含一些primitives,并且容器还有它自身的属性。
比如Axes Artist,它是一种容器,它包含了很多primitives,比如Line2DText;同时,它也有自身的属性,比如xscal,用来控制X轴是linear还是log的。

1. Figure容器

matplotlib.figure.FigureArtist最顶层的container-对象容器,它包含了图表中的所有元素。一张图表的背景就是在Figure.patch的一个矩形Rectangle。 当我们向图表添加Figure.add_subplot()或者Figure.add_axes()元素时,这些都会被添加到Figure.axes列表中。

fig = plt.figure()
ax1 = fig.add_subplot(211)
ax2 = fig.add_subplot(212)
for ax in fig.axes:
    ax.grid(True)

Figure也有它自己的text、line、patch、image。你可以直接通过add primitive语句直接添加。但是注意Figure默认的坐标系是以像素为单位,你可能需要转换成figure坐标系:(0,0)表示左下点,(1,1)表示右上点。

Figure容器的常见属性:
Figure.patch属性:Figure的背景矩形
Figure.axes属性:一个Axes实例的列表(包括Subplot)
Figure.images属性:一个FigureImages patch列表
Figure.lines属性:一个Line2D实例的列表(很少使用)
Figure.legends属性:一个Figure Legend实例列表(不同于Axes.legends)
Figure.texts属性:一个Figure Text实例列表

2. Axes容器

matplotlib.axes.Axes是matplotlib的核心。大量的用于绘图的Artist存放在它内部,并且它有许多辅助方法来创建和添加Artist给它自己,而且它也有许多赋值方法来访问和修改这些Artist

Figure容器类似,Axes包含了一个patch属性,对于笛卡尔坐标系而言,它是一个Rectangle;对于极坐标而言,它是一个Circle。这个patch属性决定了绘图区域的形状、背景和边框。

fig = plt.figure()
ax = fig.add_subplot(111)
rect = ax.patch  # axes的patch是一个Rectangle实例
rect.set_facecolor('green') #设置背景图片为绿色

Axes容器的常见属性有:
artists: Artist实例列表
patch: Axes所在的矩形实例
collections: Collection实例
images: Axes图像
legends: Legend 实例
lines: Line2D 实例
patches: Patch 实例
texts: Text 实例
xaxis: matplotlib.axis.XAxis 实例
yaxis: matplotlib.axis.YAxis 实例

matplotlib.axis.Axis实例处理tick linegrid linetick label以及axis label的绘制,它包括坐标轴上的刻度线、刻度label、坐标网格、坐标轴标题。通常你可以独立的配置y轴的左边刻度以及右边的刻度,也可以独立地配置x轴的上边刻度以及下边的刻度。

刻度包括主刻度和次刻度,它们都是Tick刻度对象。

Axis也存储了用于自适应,平移以及缩放的data_intervalview_interval。它还有Locator实例和Formatter实例用于控制刻度线的位置以及刻度label。

每个Axis都有一个label属性,也有主刻度列表和次刻度列表。这些ticksaxis.XTickaxis.YTick实例,它们包含着line primitive以及text primitive用来渲染刻度线以及刻度文本。

axis = ax.xaxis # axis为X轴对象
axis.get_ticklocs()     # 获取刻度线位置
axis.get_ticklabels()   
# 获取刻度label列表(一个Text实例的列表)。 可以通过minor=True|False关键字参数控制输出minor还是major的tick label。
axis.get_ticklines()    
# 获取刻度线列表(一个Line2D实例的列表)。 可以通过minor=True|False关键字参数控制输出minor还是major的tick line。
axis.get_data_interval()# 获取轴刻度间隔
axis.get_view_interval()# 获取轴视角(位置)的间隔
下面的例子展示了如何调整一些轴和刻度的属性(忽略美观度,仅作调整参考):

fig = plt.figure() # 创建一个新图表
rect = fig.patch   # 矩形实例并将其设为黄色
rect.set_facecolor('lightgoldenrodyellow')
​
ax1 = fig.add_axes([0.1, 0.3, 0.4, 0.4]) # 创一个axes对象,从(0.1,0.3)的位置开始,宽和高都为0.4,
rect = ax1.patch   # ax1的矩形设为灰色
rect.set_facecolor('lightslategray')
​
​
for label in ax1.xaxis.get_ticklabels(): 
    # 调用x轴刻度标签实例,是一个text实例
    label.set_color('red') # 颜色
    label.set_rotation(45) # 旋转角度
    label.set_fontsize(16) # 字体大小
​
for line in ax1.yaxis.get_ticklines():
    # 调用y轴刻度线条实例, 是一个Line2D实例
    line.set_color('green')    # 颜色
    line.set_markersize(25)    # marker大小
    line.set_markeredgewidth(2)# marker粗细

4. Tick容器

matplotlib.axis.Tick是从FigureAxesAxisTick中最末端的容器对象。
Tick包含了tickgrid line实例以及对应的label

所有的这些都可以通过Tick的属性获取,常见的tick属性有
Tick.tick1line:Line2D实例
Tick.tick2line:Line2D实例
Tick.gridline:Line2D实例
Tick.label1:Text实例
Tick.label2:Text实例

y轴分为左右两个,因此tick1对应左侧的轴;tick2对应右侧的轴。
x轴分为上下两个,因此tick1对应下侧的轴;tick2对应上侧的轴。

fig, ax = plt.subplots()
ax.plot(100*np.random.rand(20))
# ax2.plot(10*np.random.rand(20))
# 设置ticker的显示格式
formatter = matplotlib.ticker.FormatStrFormatter('$%1.2f')
ax.yaxis.set_major_formatter(formatter)

# 设置ticker的参数,右侧为主轴,颜色为绿色
ax.yaxis.set_tick_params(which='major', labelcolor='green',
                         labelleft=False, labelright=True);

一、Figure和Axes上的文本

Matplotlib具有广泛的文本支持,包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fGa7tmfs-1681776922762)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1648904841655.png)]

fig = plt.figure()
ax = fig.add_subplot()


# 分别为figure和ax设置标题,注意两者的位置是不同的
fig.suptitle('bold figure suptitle', fontsize=14, fontweight='bold')
ax.set_title('axes title')

# 设置x和y轴标签
ax.set_xlabel('xlabel')
ax.set_ylabel('ylabel')

# 设置x和y轴显示范围均为0到10
ax.axis([0, 10, 0, 10])

# 在子图上添加文本
ax.text(3, 8, 'boxed italics text in data coords', style='italic',
        bbox={'facecolor': 'red', 'alpha': 0.5, 'pad': 10})

# 在画布上添加文本,一般在子图上添加文本是更常见的操作,这种方法很少用
fig.text(0.4,0.8,'This is text for figure')

ax.plot([2], [1], 'o')
# 添加注解
ax.annotate('annotate', xy=(2, 1), xytext=(3, 4),arrowprops=dict(facecolor='black', shrink=0.05));

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-chmKX36o-1681776922763)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1648905033932.png)]

2.text - 子图上的文本

text的调用方式为Axes.text(x, y, s, fontdict=None, **kwargs)
其中x,y为文本出现的位置,默认状态下即为当前坐标系下的坐标值,
s为文本的内容,
fontdict是可选参数,用于覆盖默认的文本属性,
**kwargs为关键字参数,也可以用于传入文本样式参数

重点解释下fontdict和**kwargs参数,这两种方式都可以用于调整呈现的文本样式,最终效果是一样的,不仅text方法,其他文本方法如set_xlabel,set_title等同样适用这两种方式修改样式。通过一个例子演示这两种方法是如何使用的。

fig = plt.figure(figsize=(10,3))
axes = fig.subplots(1,2)

# 使用关键字参数修改文本样式
axes[0].text(0.3, 0.8, 'modify by **kwargs', style='italic',
        bbox={'facecolor': 'red', 'alpha': 0.5, 'pad': 10});

# 使用fontdict参数修改文本样式 ,就是提前把参数设置写成字典
font = {'bbox':{'facecolor': 'red', 'alpha': 0.5, 'pad': 10}, 'style':'italic'}
axes[1].text(0.3, 0.8, 'modify by fontdict', fontdict=font);

3.xlabel和ylabel - 子图的x,y轴标签

xlabel的调用方式为Axes.set_xlabel(xlabel, fontdict=None, labelpad=None, *, loc=None, **kwargs)
ylabel方式类似,这里不重复写出。
其中xlabel即为标签内容,
fontdict**kwargs用来修改样式,上一小节已介绍,
labelpad为标签和坐标轴的距离,默认为4,
loc为标签位置,可选的值为’left’, ‘center’, 'right’之一,默认为居中

# 观察labelpad和loc参数的使用效果
fig = plt.figure(figsize=(10,3))
axes = fig.subplots(1,2)
axes[0].set_xlabel('xlabel',labelpad=20,loc='left')

# loc参数仅能提供粗略的位置调整,如果想要更精确的设置标签的位置,可以使用position参数+horizontalalignment参数来定位
# position由一个元组过程,第一个元素0.2表示x轴标签在x轴的位置,第二个元素对于xlabel其实是无意义的,随便填一个数都可以
# horizontalalignment='left'表示左对齐,这样设置后x轴标签就能精确定位在x=0.2的位置处
axes[1].set_xlabel('xlabel', position=(0.2, _), horizontalalignment='left');

4.title和suptitle - 子图和画布的标题

title的调用方式为Axes.set_title(label, fontdict=None, loc=None, pad=None, *, y=None, **kwargs)
其中label为子图标签的内容,fontdict,loc,**kwargs和之前小节相同不重复介绍
pad是指标题偏离图表顶部的距离,默认为6
y是title所在子图垂向的位置。默认值为1,即title位于子图的顶部。

suptitle的调用方式为figure.suptitle(t, **kwargs)
其中t为画布的标题内容

# 观察pad参数的使用效果
fig = plt.figure(figsize=(10,3))
fig.suptitle('This is figure title',y=1.2) # 通过参数y设置高度
axes = fig.subplots(1,2)
axes[0].set_title('This is title',pad=15)
axes[1].set_title('This is title',pad=6);

5.annotate - 子图的注解

annotate的调用方式为Axes.annotate(text, xy, *args, **kwargs)
其中text为注解的内容,
xy为注解箭头指向的坐标,
其他常用的参数包括:
xytext为注解文字的坐标,
xycoords用来定义xy参数的坐标系,
textcoords用来定义xytext参数的坐标系,
arrowprops用来定义指向箭头的样式
annotate的参数非常复杂,这里仅仅展示一个简单的例子,更多参数可以查看官方文档中的annotate介绍

fig = plt.figure()
ax = fig.add_subplot()
ax.annotate("",
            xy=(0.2, 0.2), xycoords='data',
            xytext=(0.8, 0.8), textcoords='data',
            arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=0.2")
            );

6.字体的属性设置

字体设置一般有全局字体设置和自定义局部字体设置两种方法。

#该block讲述如何在matplotlib里面,修改字体默认属性,完成全局字体的更改。
plt.rcParams['font.sans-serif'] = ['SimSun']    # 指定默认字体为新宋体。
plt.rcParams['axes.unicode_minus'] = False      # 解决保存图像时 负号'-' 显示为方块和报错的问题。

#局部字体的修改方法1
x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
plt.plot(x, label='小示例图标签')

# 直接用字体的名字
plt.xlabel('x 轴名称参数', fontproperties='Microsoft YaHei', fontsize=16)         # 设置x轴名称,采用微软雅黑字体
plt.ylabel('y 轴名称参数', fontproperties='Microsoft YaHei', fontsize=14)         # 设置Y轴名称
plt.title('坐标系的标题',  fontproperties='Microsoft YaHei', fontsize=20)         # 设置坐标系标题的字体
plt.legend(loc='lower right', prop={"family": 'Microsoft YaHei'}, fontsize=10) ;   # 小示例图的字体设置
#一般绘图时会自动创建刻度,而如果通过上面的例子使用set_ticks创建刻度可能会导致tick的范围与所绘制图形的范围不一致的问题。
#所以在下面的案例中,axs[1]中set_xtick的设置要与数据范围所对应,然后再通过set_xticklabels设置刻度所对应的标签
import numpy as np
import matplotlib.pyplot as plt
fig, axs = plt.subplots(2, 1, figsize=(6, 4), tight_layout=True)
x1 = np.linspace(0.0, 6.0, 100)
y1 = np.cos(2 * np.pi * x1) * np.exp(-x1)
axs[0].plot(x1, y1)
axs[0].set_xticks([0,1,2,3,4,5,6])

axs[1].plot(x1, y1)
axs[1].set_xticks([0,1,2,3,4,5,6])#要将x轴的刻度放在数据范围中的哪些位置
axs[1].set_xticklabels(['zero','one', 'two', 'three', 'four', 'five','six'],#设置刻度对应的标签
                   rotation=30, fontsize='small')#rotation选项设定x刻度标签倾斜30度。
axs[1].xaxis.set_ticks_position('bottom')#set_ticks_position()方法是用来设置刻度所在的位置,常用的参数有bottom、top、both、none
print(axs[1].xaxis.get_ticklines());

2.Tick Locators and Formatters

除了上述的简单模式,还可以使用Tick Locators and Formatters完成对于刻度位置和刻度标签的设置。 其中Axis.set_major_locator和Axis.set_minor_locator方法用来设置标签的位置,Axis.set_major_formatter和Axis.set_minor_formatter方法用来设置标签的格式。这种方式的好处是不用显式地列举出刻度值列表。

set_major_formatter和set_minor_formatter这两个formatter格式命令可以接收字符串格式(matplotlib.ticker.StrMethodFormatter)或函数参数(matplotlib.ticker.FuncFormatter)来设置刻度值的格式 。

# 接收字符串格式的例子
fig, axs = plt.subplots(2, 2, figsize=(8, 5), tight_layout=True)
for n, ax in enumerate(axs.flat):
    ax.plot(x1*10., y1)

formatter = matplotlib.ticker.FormatStrFormatter('%1.1f')
axs[0, 1].xaxis.set_major_formatter(formatter)

formatter = matplotlib.ticker.FormatStrFormatter('-%1.1f')
axs[1, 0].xaxis.set_major_formatter(formatter)

formatter = matplotlib.ticker.FormatStrFormatter('%1.5f')
axs[1, 1].xaxis.set_major_formatter(formatter);

# 接收函数的例子
def formatoddticks(x, pos):
    """Format odd tick positions."""
    if x % 2:
        return f'{x:1.2f}'
    else:
        return ''

fig, ax = plt.subplots(figsize=(5, 3), tight_layout=True)
ax.plot(x1, y1)
ax.xaxis.set_major_formatter(formatoddticks);

b) Tick Locators

在普通的绘图中,我们可以直接通过上图的set_ticks进行设置刻度的位置,缺点是需要自己指定或者接受matplotlib默认给定的刻度。当需要更改刻度的位置时,matplotlib给了常用的几种locator的类型。如果要绘制更复杂的图,可以先设置locator的类型,然后通过axs.xaxis.set_major_locator(locator)绘制即可
locator=plt.MaxNLocator(nbins=7)
locator=plt.FixedLocator(locs=[0,0.5,1.5,2.5,3.5,4.5,5.5,6])#直接指定刻度所在的位置
locator=plt.AutoLocator()#自动分配刻度值的位置
locator=plt.IndexLocator(offset=0.5, base=1)#面元间距是1,从0.5开始
locator=plt.MultipleLocator(1.5)#将刻度的标签设置为1.5的倍数
locator=plt.LinearLocator(numticks=5)#线性划分5等分,4个刻度

# 接收各种locator的例子
fig, axs = plt.subplots(2, 2, figsize=(8, 5), tight_layout=True)
for n, ax in enumerate(axs.flat):
    ax.plot(x1*10., y1)

locator = matplotlib.ticker.AutoLocator()
axs[0, 0].xaxis.set_major_locator(locator)

locator = matplotlib.ticker.MaxNLocator(nbins=10)
axs[0, 1].xaxis.set_major_locator(locator)


locator = matplotlib.ticker.MultipleLocator(5)
axs[1, 0].xaxis.set_major_locator(locator)


locator = matplotlib.ticker.FixedLocator([0,7,14,21,28])
axs[1, 1].xaxis.set_major_locator(locator);

此外matplotlib.dates 模块还提供了特殊的设置日期型刻度格式和位置的方式

# 特殊的日期型locator和formatter
locator = mdates.DayLocator(bymonthday=[1,15,25])
formatter = mdates.DateFormatter('%b %d')

fig, ax = plt.subplots(figsize=(5, 3), tight_layout=True)
ax.xaxis.set_major_locator(locator)
ax.xaxis.set_major_formatter(formatter)
base = datetime.datetime(2017, 1, 1, 0, 0, 1)
time = [base + datetime.timedelta(days=x) for x in range(len(x1))]
ax.plot(time, y1)
ax.tick_params(axis='x', rotation=70);

三、legend(图例)

在具体学习图例之前,首先解释几个术语:

legend entry(图例条目)

每个图例由一个或多个legend entries组成。一个entry包含一个key和其对应的label。

legend key(图例键)

每个 legend label左面的colored/patterned marker(彩色/图案标记)

legend label(图例标签)

描述由key来表示的handle的文本

legend handle(图例句柄)

用于在图例中生成适当图例条目的原始对象

以下面这个图为例,右侧的方框中的共有两个legend entry;两个legend key,分别是一个蓝色和一个黄色的legend key;两个legend label,一个名为‘Line up’和一个名为‘Line Down’的legend label

fig, ax = plt.subplots()
line_up, = ax.plot([1, 2, 3], label='Line 2')
line_down, = ax.plot([3, 2, 1], label='Line 1')
ax.legend(handles = [line_up, line_down], labels = ['Line Up', 'Line Down']);
fig,axes = plt.subplots(1,4,figsize=(10,4))
for i in range(4):
    axes[i].plot([0.5],[0.5])
    axes[i].legend(labels='a',loc=i)  # 观察loc参数传入不同值时图例的位置
fig.tight_layout()
lengend中loc位置参数
Location String   Location Code
        ===============   =============
        'best'            0
        'upper right'     1
        'upper left'      2
        'lower left'      3
        'lower right'     4
        'right'           5
        'center left'     6
        'center right'    7
        'lower center'    8
        'upper center'    9
        'center'          10
设置图例边框及背景

In [165]:

fig = plt.figure(figsize=(10,3))
axes = fig.subplots(1,3)
for i, ax in enumerate(axes):
    ax.plot([1,2,3],label=f'ax {i}')
axes[0].legend(frameon=False) #去掉图例边框
axes[1].legend(edgecolor='blue') #设置图例边框颜色
axes[2].legend(facecolor='gray'); #设置图例背景颜色,若无边框,参数无效
fig,ax =plt.subplots()
ax.plot([1,2,3],label='label')
ax.legend(title='legend title');

1.matplotlib预先定义样式

matplotlib贴心地提供了许多内置的样式供用户使用,使用方法很简单,只需在python脚本的最开始输入想使用style的名称即可调用,尝试调用不同内置样式,比较区别

import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

plt.style.use('default')
plt.plot([1,2,3,4],[2,3,4,5])
plt.style.use('ggplot')
plt.plot([1,2,3,4],[2,3,4,5])

print(plt.style.available)


--------------------------------
2.用户自定义stylesheet
在任意路径下创建一个后缀名为mplstyle的样式清单,编辑文件添加以下样式内容

axes.titlesize : 24
axes.labelsize : 20
lines.linewidth : 3
lines.markersize : 10
xtick.labelsize : 16
ytick.labelsize : 16


plt.style.use('file/presentation.mplstyle')
plt.plot([1,2,3,4],[2,3,4,5])

plt.style.use('default') # 恢复到默认样式
plt.plot([1,2,3,4],[2,3,4,5])

mpl.rc('lines', linewidth=4, linestyle='-.')
plt.plot([1,2,3,4],[2,3,4,5])


二、matplotlib的色彩设置(color)

在可视化中,如何选择合适的颜色和搭配组合也是需要仔细考虑的,色彩选择要能够反映出可视化图像的主旨。
从可视化编码的角度对颜色进行分析,可以将颜色分为色相、亮度和饱和度三个视觉通道。通常来说:
色相: 没有明显的顺序性、一般不用来表达数据量的高低,而是用来表达数据列的类别。
明度和饱和度: 在视觉上很容易区分出优先级的高低、被用作表达顺序或者表达数据量视觉通道。
具体关于色彩理论部分的知识,不属于本教程的重点,请参阅有关拓展材料学习。
ECharts数据可视化实验室
学会这6个可视化配色基本技巧,还原数据本身的意义

在matplotlib中,设置颜色有以下几种方式:

# 颜色用[0,1]之间的浮点数表示,四个分量按顺序分别为(red, green, blue, alpha),其中alpha透明度可省略
plt.plot([1,2,3],[4,5,6],color=(0.1, 0.2, 0.5))
plt.plot([4,5,6],[1,2,3],color=(0.1, 0.2, 0.5, 0.5))

3.灰度色阶

In [27]:

# 当只有一个位于[0,1]的值时,表示灰度色阶
plt.plot([1,2,3],[4,5,6],color='0.5')

4.单字符基本颜色

In [28]:

# matplotlib有八个基本颜色,可以用单字符串来表示,分别是'b', 'g', 'r', 'c', 'm', 'y', 'k', 'w',对应的是blue, green, red, cyan, magenta, yellow, black, and white的英文缩写
plt.plot([1,2,3],[4,5,6],color='m')

6.使用colormap设置一组颜色

有些图表支持使用colormap的方式配置一组颜色,从而在可视化中通过色彩的变化表达更多信息。

在matplotlib中,colormap共有五种类型:

  • 顺序(Sequential)。通常使用单一色调,逐渐改变亮度和颜色渐渐增加,用于表示有顺序的信息
  • 发散(Diverging)。改变两种不同颜色的亮度和饱和度,这些颜色在中间以不饱和的颜色相遇;当绘制的信息具有关键中间值(例如地形)或数据偏离零时,应使用此值。
  • 循环(Cyclic)。改变两种不同颜色的亮度,在中间和开始/结束时以不饱和的颜色相遇。用于在端点处环绕的值,例如相角,风向或一天中的时间。
  • 定性(Qualitative)。常是杂色,用来表示没有排序或关系的信息。
  • 杂色(Miscellaneous)。一些在特定场景使用的杂色组合,如彩虹,海洋,地形等。
x = np.random.randn(50)
y = np.random.randn(50)
plt.scatter(x,y,c=x,cmap='RdPu')

import matplotlib,pyplot as plt

import numpy as np

x=np.linspace(-1,1,50)

y=2*x+1 / x**x

plt.plot(x,y)

plt.show() 输出的是一个坐标轴

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pIt9HR1a-1681776922764)(C:\Users\银晗\AppData\Roaming\Typora\typora-user-images\1617109108983.png)]

y1=2*x+1 y2=x**2

plt.figure()

plt.plot(x,y1)

plt.figure()

plt.plot(x,y2) plt.show() 显示两张图一次函数和二次函数

plt.figure(num=3,figsize=(8,5),color=‘red’,linewidth=1.0,linestyle=‘ --’) 图的长8和宽5,x轴±3距离,线的颜色,线的宽度,线样式

折线图:

#简单
plt.figure(figsize=(8,10),dpi=80)	dpi是清晰度
plt.plot([1,2,3,4,5,6,7]#这是x轴坐标,[12,34,42,13,42,21,32]#y轴坐标)
plt.show()
plt.savefig("test.png")/也可以鼠标右键保存
#进阶
import random
x = range(60)# 60个数据
y = [random.uniform(15,18) for i in x]  #列表表达式

plt.figure(figsize=(20,10),dpi=80)
plt.plot(x,y)

x_label= ["11点{}分".format(i) for i in x]
#设置x,y轴的步长[::5]就是步长为5,本意就是原列表替换 
plt.xticks(range(0,60,5),x_label[::5])
plt.yticks(range(0,40,4))

plt.grid(True,linestyle='--',alpha=0.5#透明度)		#grid()网格

设置坐标轴:

坐标轴有多长:plt.xlim((-1,2)) ylim((-2,3))

坐标轴的名字:plt.xlabel(“ …”) plt. ylabel (‘i am x’) plt.title()

设置坐标轴的单位下标:

new_ticks=np.linspace(-1,2,5) plt.xticks(new_ticks)

横坐标从-1到2分5个单位也就0.25一个单位

plt.yticks([-2,-1.8,-1,1.22,3,],

​ [‘really bad’,‘bad’,‘normal’,‘good’,‘really good’])

将y轴上对应的标点换成文字

移动坐标轴:

ax=plt.gca()

ax.spines[‘right’].set_color(‘none’) 图的四个边框

ax.spines[‘top’].set_color(‘none’) 让边框消失

ax.xaixs.set_ticks_potion(‘bottom’)

ax.yaxis.set_ticks_potion(‘left’)

ax.spines[‘bottom’].set_position((‘data’,0))

ax.spines[‘left’].set_position((‘data’,0))

plt.show()

l1,=plt.plot(x,y1,label=‘up’)

l2,=plt.plot(x,y2,color=‘red’,linestyle=‘–’,label=‘down’)

plt.legend(handles(操作对象)=[l1,l2],labels(名字)=aaa,loc=‘best/upper right’)

设置背景透明度,避免遮挡

for label in ax.get_xticklabels()+ax.get_yticklabels():
label.set_fontsize(12)
label.set_bbox(dict(facecolor='white',edgecolor='None',alpha=0.7#这个是控制透明度))

散点图:

n=1024
X=np.random.normol(0,1,n)
Y=np.random.normal(0,1,n)
T=np.arctan2(Y,X)#颜色

plt.scatter(X,Y,size=75,color=T,alpha=0.5)

plt.xlim((-1.5,1.5))
plt.ylim((-1.5,1.5))
plt.xtick(())#隐藏ticks
ply.ytick(())
ply.show()

饼图:

arr = [11,58,22,5]	#整数会计算百分比

arr = [0.1,0.4,0.2]	#都是小数直接等于百分比,饼图可不完整

arr = [11,58,22,5,22]
plt.pie(arr,labels=['a','b','c','d','e'],labeldistance=0.3,autopct= '%.2f%%')

#labels是标签,labeldistance是标签距离圆心的距离,autipct =  '% 几位小数f%%'

arr = [11,58,22,5,22]
plt.pie(arr,labels=['a','b','c','d','e'],labeldistance=0.3,autopct= '%.2f%%',shadow=True,explode=[0.4,0.3,0.2,0.1,0.2])

#shadow是显示阴影,explode是分裂开


plt.pie(arr)
plt.show()

柱状图:

堆叠柱状图

import numpy as np
import matplotlib.pyplot as plt

N = 5
menMeans = (20, 35, 30, 35, 27)
womenMeans = (25, 32, 34, 20, 25)
menStd = (2, 3, 4, 1, 2)
womenStd = (3, 5, 2, 3, 3)
ind = np.arange(N)    # the x locations for the groups
width = 0.35       # the width of the bars: can also be len(x) sequence

p1 = plt.bar(ind, menMeans, width, yerr=menStd)
p2 = plt.bar(ind, womenMeans, width,
             bottom=menMeans, yerr=womenStd)

plt.ylabel('Scores')
plt.title('Scores by group and gender')
plt.xticks(ind, ('G1', 'G2', 'G3', 'G4', 'G5'))
plt.yticks(np.arange(0, 81, 10))
plt.legend((p1[0], p2[0]), ('Men', 'Women'))

plt.show()

奥运会奖牌柱状图

n=12	#柱状图的数量
X=np.arrange(n)
Y1=(1-X/float(n))*np.random.uniform(0.5,1.0,n)
Y2=(1-X/float(n))*np.random.uniform(0.5,1.0,n)
#X就是随机产生0-12的数字,uniform根据X的值随机产生一个y
plt.bar(X,+Y1,facecolor='#9999ff',edgecolor='white')
plt.bar(X,-Y2)  #bar就是柱状图,正负号表示向上向下
#其他的都是渲染
for x ,y in zip(X,Y1):
    plt.text(x+0.4,y+0.05,%.2f%y,ha='center',va='bottom')  #以text的方式给柱状图加标注,ha是顶部对齐,va是底部对齐
    
 
plt.figure(figsize=(10,10))
bar_width=0.2
plt.bar(x=range(10),height=gold,label='金牌',color='red',width=bar_width)
plt.bar(x=np.arange(0,10,1)+bar_width,height=silver,label='银牌',color='blue',width=bar_width)
plt.bar(x=np.arange(0,10,1)+bar_width*2,height=bronze,label='铜牌',color='c',width=bar_width)

for x,y in enumerate(gold):
    plt.text(x,y,'%s'%y,ha='center',va='bottom')
for x,y in enumerate(silver):
     plt.text(x+bar_width,y,'%s'%y,ha='center',va='bottom')
for x,y in enumerate(bronze):
     plt.text(x+bar_width*2,y,'%s'%y,ha='center',va='top')

plt.title('奥运奖牌分析')
plt.ylabel('奖牌数')
plt.xlabel('国家/地区')
plt.xticks(np.arange(0,10,1)+bar_width/3,label)
plt.xticks(rotation=25)
plt.legend()
plt.show()    

等高线:

def f(x,y):
    return(1-x/2+x**5+y**3)*np.exp(-x**2-y**2)
#计算高度的公式

n=256
x=np.linspace(-3,3,n)
y=np.linspace(-3,3,n)
X,Y=np.meshgrid(x,y)#图的网格的
plt.contourf(X,Y,f(X,Y),8,alpha=0.75,cmap=plt.cm.hot这个是让数字对应颜色,坐标表示的区域显示什么颜色)

C=plt.contour(X,Y,f(X,Y),8,colors='black',linewidth=.5)  #画等高线,这个数字 8 就是等高线将图分为几部分,上面也一样
plt.clabel(C,inline=True,fontsize=10)
#等高线数字描述

打印图片:

import matplotlib.pyplot as plt
img_arr = plt.imread(“./1.jpg”)
#imread将图片读取到矩阵里,矩阵的数据代表了图片

#imshow将numpy可视化展示
plt.imshow(img_arr)

a=np.array([...数字]),reshpe(3,3)
plt.imageshow(a,interpolation='nearest',cmap='bone',origin='lower')
#interpolation就是图片显示的样式,lower是从第低到高
plt.colorbar(shrink=0.9)#控制颜色的柱状图
plt.xticks(())
plt.yticks(())
plt.show()
from mpl_toolkits.mplot3d import Axes3D
fig=plt.figure()
ax=Axes3D(fig)
#X,Y value
X=np.arange(-4,4,0.25)
Y=np.arange(-4,4,0.25)
X,Y=np.meshgrid(x,y)
r=np.sqrt(x**2+Y**2)
#height value
Z=np.sin(R)
ax.plot_surface(X,Y,Z,rstride=1(行跨度),cstride=5(列跨度),cmap=plt.get_cmap('rainbow'))
ax.contourf(X,Y,zdir='z'(将图像投影到哪个平面上xyz),offset=-2,cmap='rainbow')
ax.set_zlim=(-2,2)  #z轴的高度
plt.show()


import matplotlib.pyplot as plt

plt.figure()

plt.subplot(2(2),2(2),1)
plt.plot([0,1],[0,2])

plt.subplot(2,2,2)
plt.plot([0,1],[0,2])

plt.subplot(223)
plt.plot([0,1],[0,3])
#以此类推 
plt.show()
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
#method 1: subplot2grid
 ax1=plt.subplot2grid((3,3),(0,0),colspan=3(),rowspan=1())
ax1.plot([1,2],[1,2])
ax1.set_title('ax1_titile')	#set是设置的意识
ax2=plt.subplot2grid((3,3),(1,0),colspan=2) 
#colspan,rowspan是控制坐标轴的长和宽

#method 2: gridspec
plt.figure()
gs=gridspec.GridSpec(3,3)  #这个也是控制长和宽
ax1=plt.subplot(gs[0,:])
ax2=plt.subplot(gs[1,:2])
#method 3: easy to define structure
plt
plt.tight_layout()
plt.show()

堆叠柱状图

  • yerr:标准差的竖线
  • 堆叠图,第二个及以后需要有button参数连接
import numpy as np
import matplotlib.pyplot as plt

N = 5
menMeans = (20, 35, 30, 35, 27)
womenMeans = (25, 32, 34, 20, 25)

menStd = (2, 3, 4, 1, 2)
womenStd = (3, 5, 2, 3, 3)

ind = np.arange(N)    # the x locations for the groups
width = 0.35       # the width of the bars: can also be len(x) sequence


p1 = plt.bar(ind, menMeans, width, yerr=menStd)
p2 = plt.bar(ind, womenMeans, width,
             bottom=menMeans, yerr=womenStd)

# p1 = plt.bar(ind, menMeans, width)
# p2 = plt.bar(ind, womenMeans, width,   
#              bottom=menMeans)                 


plt.xlabel('Groups')
plt.ylabel('Scores')
plt.title('Scores by group and gender')
plt.xticks(ind, ('G1', 'G2', 'G3', 'G4', 'G5'))
plt.yticks(np.arange(0, 81, 10))
plt.legend((p1[0], p2[0]), ('Men', 'Women'))

plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xkjgwLlK-1681776922766)( )]

多条柱状图

In [11]:

import numpy as np
import matplotlib.pyplot as plt

men_means, men_std = (20, 35, 30, 35, 27), (2, 3, 4, 1, 2)
women_means, women_std = (25, 32, 34, 20, 25), (3, 5, 2, 3, 3)

ind = np.arange(len(men_means))  # the x locations for the groups
width = 0.35  # the width of the bars

fig, ax = plt.subplots()

rects1 = ax.bar(ind - width/2, men_means, width, yerr=men_std,   #两个柱图,宽度就除以2
                color='SkyBlue', label='Men')
rects2 = ax.bar(ind + width/2, women_means, width, yerr=women_std,
                color='IndianRed', label='Women')

# Add some text for labels, title and custom x-axis tick labels, etc.
ax.set_ylabel('Scores')
ax.set_title('Scores by group and gender')
ax.set_xticks(ind)
ax.set_xticklabels(('G1', 'G2', 'G3', 'G4', 'G5'))
ax.legend()


def autolabel(rects, xpos='center'):
    """
    Attach a text label above each bar in *rects*, displaying its height.  柱状图的上面显示文本

    *xpos* indicates which side to place the text w.r.t. the center of
    the bar. It can be one of the following {'center', 'right', 'left'}.  参数可选:左、中、右
    """

    xpos = xpos.lower()  # normalize the case of the parameter
    ha = {'center': 'center', 'right': 'left', 'left': 'right'}
    offset = {'center': 0.5, 'right': 0.57, 'left': 0.43}  # x_txt = x + w*off

    for rect in rects:
        height = rect.get_height()
        ax.text(rect.get_x() + rect.get_width()*offset[xpos], 1.01*height,
                '{}'.format(height), ha=ha[xpos], va='bottom')


autolabel(rects1, "left")
autolabel(rects2, "right")

plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HOZztXVV-1681776922767)( )]

水平柱状图

直接用barh画就行了

In [140]:

import matplotlib.pyplot as plt
import numpy as np

# Fixing random state for reproducibility
np.random.seed(19680801)


plt.rcdefaults()
fig, ax = plt.subplots()

# Example data
people = ('Tom', 'Dick', 'Harry', 'Slim', 'Jim')
y_pos = np.arange(len(people))
performance = 3 + 10 * np.random.rand(len(people))
error = np.random.rand(len(people))

ax.barh(y_pos, performance, xerr=error, align='center')
# ax.set_yticks(y_pos, labels=people)
ax.invert_yaxis()  # labels read top-to-bottom
ax.set_xlabel('Performance')
ax.set_title('How fast do you want to go today?')

plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BY7YqCZc-1681776922769)( )]

直方图

In [122]:

import matplotlib
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(19680801)

# example data
mu = 100  # mean of distribution
sigma = 15  # standard deviation of distribution
x = mu + sigma * np.random.randn(437)

num_bins = 50

fig, ax = plt.subplots()

# the histogram of the data
n, bins, patches = ax.hist(x, num_bins, density=1)

# add a 'best fit' line
y = ((1 / (np.sqrt(2 * np.pi) * sigma)) *
     np.exp(-0.5 * (1 / sigma * (bins - mu))**2))
ax.plot(bins, y, '--')

ax.set_xlabel('Smarts')
ax.set_ylabel('Probability density')
ax.set_title(r'Histogram of IQ: $\mu=100$, $\sigma=15$')

# Tweak spacing to prevent clipping of ylabel
fig.tight_layout()
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uw97KDlJ-1681776922771)( )]

绘制日期图像

  • 从csv或者excel中读取数据,先用pandas转化一下格式 x = pd.to_datetime(df_stock_data_1[‘Date’]
  • 格式转换器 mdates.DateFormatter(‘%Y-%m-%d’)
  • 设置定位符 ax.xaxis.set_major_locator(years) ax.xaxis.set_major_formatter(yearsFmt) ax.xaxis.set_minor_locator(months)

In [124]:

# ignore warning
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import matplotlib.cbook as cbook

years = mdates.YearLocator()   # every year
months = mdates.MonthLocator()  # every month
yearsFmt = mdates.DateFormatter('%Y')

# Load a numpy record array from yahoo csv data with fields date, open, close,
# volume, adj_close from the mpl-data/example directory. The record array
# stores the date as an np.datetime64 with a day unit ('D') in the date column.
# with cbook.get_sample_data('goog.npz') as datafile:
#     r = np.load(datafile)['price_data'].view(np.recarray)  获取日期数据

fig, ax = plt.subplots()
ax.plot(r.date, r.adj_close)

# format the ticks  定位日期
ax.xaxis.set_major_locator(years)
ax.xaxis.set_major_formatter(yearsFmt)
ax.xaxis.set_minor_locator(months)

# round to nearest years...
datemin = np.datetime64(r.date[0], 'Y')
datemax = np.datetime64(r.date[-1], 'Y') + np.timedelta64(1, 'Y')
ax.set_xlim(datemin, datemax)


# format the coords message box
def price(x):
    return '$%1.2f' % x

ax.format_xdata = mdates.DateFormatter('%Y-%m-%d')   
ax.format_ydata = price
ax.grid(True)

# rotates and right aligns the x labels, and moves the bottom of the
# axes up to make room for them
fig.autofmt_xdate()

plt.show()
:14: MatplotlibDeprecationWarning: In a future release, get_sample_data will automatically load numpy arrays.  Set np_load to True to get the array and suppress this warning.  Set asfileobj to False to get the path to the data file and suppress this warning.
  with cbook.get_sample_data('goog.npz') as datafile:
---------------------------------------------------------------------------
FileNotFoundError                         Traceback (most recent call last)
 in 
     12 # volume, adj_close from the mpl-data/example directory. The record array
     13 # stores the date as an np.datetime64 with a day unit ('D') in the date column.
---> 14 with cbook.get_sample_data('goog.npz') as datafile:
     15     r = np.load(datafile)['price_data'].view(np.recarray)
     16 

D:\ProgramData\Anaconda3\lib\site-packages\matplotlib\cbook\__init__.py in get_sample_data(fname, asfileobj, np_load)
    463                     "asfileobj to False to get the path to the data file and "
    464                     "suppress this warning.")
--> 465                 return path.open('rb')
    466         elif suffix in ['.csv', '.xrc', '.txt']:
    467             return path.open('r')

D:\ProgramData\Anaconda3\lib\pathlib.py in open(self, mode, buffering, encoding, errors, newline)
   1219         if self._closed:
   1220             self._raise_closed()
-> 1221         return io.open(self, mode, buffering, encoding, errors, newline,
   1222                        opener=self._opener)
   1223 

D:\ProgramData\Anaconda3\lib\pathlib.py in _opener(self, name, flags, mode)
   1075     def _opener(self, name, flags, mode=0o666):
   1076         # A stub for the opener argument to built-in open()
-> 1077         return self._accessor.open(self, flags, mode)
   1078 
   1079     def _raw_open(self, flags, mode=0o777):

FileNotFoundError: [Errno 2] No such file or directory: 'D:\\ProgramData\\Anaconda3\\lib\\site-packages\\matplotlib\\mpl-data\\sample_data\\goog.npz'

自定义时间或者 自动匹配

格式转换函数 def format_date(x, pos=None): thisind = np.clip(int(x + 0.5), 0, N - 1) return date[thisind].strftime(‘%Y-%m-%d’)

自定义匹配 ax.xaxis.set_major_formatter(ticker.FuncFormatter(format_date))

In [ ]:

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.cbook as cbook
import matplotlib.ticker as ticker

# Load a numpy record array from yahoo csv data with fields date, open, close,
# volume, adj_close from the mpl-data/example directory. The record array
# stores the date as an np.datetime64 with a day unit ('D') in the date column.
with cbook.get_sample_data('goog.npz') as datafile:
    r = np.load(datafile)['price_data'].view(np.recarray)
r = r[-30:]  # get the last 30 days
# Matplotlib works better with datetime.datetime than np.datetime64, but the
# latter is more portable.
date = r.date.astype('O')

# first we'll do it the default way, with gaps on weekends
fig, axes = plt.subplots(ncols=2, figsize=(8, 4))
ax = axes[0]
ax.plot(date, r.adj_close, 'o-')
ax.set_title("Default")
fig.autofmt_xdate()

# next we'll write a custom formatter
N = len(r)
ind = np.arange(N)  # the evenly spaced plot indices


def format_date(x, pos=None):
    thisind = np.clip(int(x + 0.5), 0, N - 1)
    return date[thisind].strftime('%Y-%m-%d')

ax = axes[1]
ax.plot(ind, r.adj_close, 'o-')
ax.xaxis.set_major_formatter(ticker.FuncFormatter(format_date))
ax.set_title("Custom tick formatter")
fig.autofmt_xdate()

plt.show()

In [ ]:


绘制分类变量

In [18]:

import matplotlib.pyplot as plt

data = {'apples': 10, 'oranges': 15, 'lemons': 5, 'limes': 20}
names = list(data.keys())
values = list(data.values())

fig, axs = plt.subplots(1, 3, figsize=(9, 3), sharey=True)  #subplot(几行,几列,图像大小(与行列要匹配))
axs[0].bar(names, values)
axs[1].scatter(names, values)
axs[2].plot(names, values)
fig.suptitle('Categorical Plotting')

Out[18]:

Text(0.5, 0.98, 'Categorical Plotting')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RewEKlqj-1681776922773)( )]

In [19]:

cat = ["bored", "happy", "bored", "bored", "happy", "bored"]
dog = ["happy", "happy", "happy", "happy", "bored", "bored"]
activity = ["combing", "drinking", "feeding", "napping", "playing", "washing"]

fig, ax = plt.subplots()
ax.plot(activity, dog, label="dog")
ax.plot(activity, cat, label="cat")
ax.legend()

plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BlFiGTdS-1681776922774)( )]

绘制两曲线的相干性

In [22]:

import numpy as np
import matplotlib.pyplot as plt

# Fixing random state for reproducibility
np.random.seed(19680801)

dt = 0.01
t = np.arange(0, 30, dt)
nse1 = np.random.randn(len(t))                 # white noise 1
nse2 = np.random.randn(len(t))                 # white noise 2

# Two signals with a coherent part at 10Hz and a random part
s1 = np.sin(2 * np.pi * 10 * t) + nse1
s2 = np.sin(2 * np.pi * 10 * t) + nse2

fig, axs = plt.subplots(2, 1)
axs[0].plot(t, s1, t, s2)
axs[0].set_xlim(0, 2)
axs[0].set_xlabel('time')
axs[0].set_ylabel('s1 and s2')
axs[0].grid(True)

cxy, f = axs[1].cohere(s1, s2, 256, 1. / dt)   # 俩曲线的相干度曲线
axs[1].set_ylabel('coherence')

fig.tight_layout()
plt.show()
15     r = np.load(datafile)['price_data'].view(np.recarray)
 16 

D:\ProgramData\Anaconda3\lib\site-packages\matplotlib\cbook_init_.py in get_sample_data(fname, asfileobj, np_load)
463 "asfileobj to False to get the path to the data file and "
464 “suppress this warning.”)
–> 465 return path.open(‘rb’)
466 elif suffix in [‘.csv’, ‘.xrc’, ‘.txt’]:
467 return path.open(‘r’)

D:\ProgramData\Anaconda3\lib\pathlib.py in open(self, mode, buffering, encoding, errors, newline)
1219 if self._closed:
1220 self._raise_closed()
-> 1221 return io.open(self, mode, buffering, encoding, errors, newline,
1222 opener=self._opener)
1223

D:\ProgramData\Anaconda3\lib\pathlib.py in _opener(self, name, flags, mode)
1075 def _opener(self, name, flags, mode=0o666):
1076 # A stub for the opener argument to built-in open()
-> 1077 return self._accessor.open(self, flags, mode)
1078
1079 def _raw_open(self, flags, mode=0o777):

FileNotFoundError: [Errno 2] No such file or directory: ‘D:\ProgramData\Anaconda3\lib\site-packages\matplotlib\mpl-data\sample_data\goog.npz’


#### 自定义时间或者 自动匹配

格式转换函数 def format_date(x, pos=None): thisind = np.clip(int(x + 0.5), 0, N - 1) return date[thisind].strftime('%Y-%m-%d')

自定义匹配 ax.xaxis.set_major_formatter(ticker.FuncFormatter(format_date))

In [ ]:

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.cbook as cbook
import matplotlib.ticker as ticker

Load a numpy record array from yahoo csv data with fields date, open, close,

volume, adj_close from the mpl-data/example directory. The record array

stores the date as an np.datetime64 with a day unit (‘D’) in the date column.

with cbook.get_sample_data(‘goog.npz’) as datafile:
r = np.load(datafile)[‘price_data’].view(np.recarray)
r = r[-30:] # get the last 30 days

Matplotlib works better with datetime.datetime than np.datetime64, but the

latter is more portable.

date = r.date.astype(‘O’)

first we’ll do it the default way, with gaps on weekends

fig, axes = plt.subplots(ncols=2, figsize=(8, 4))
ax = axes[0]
ax.plot(date, r.adj_close, ‘o-’)
ax.set_title(“Default”)
fig.autofmt_xdate()

next we’ll write a custom formatter

N = len®
ind = np.arange(N) # the evenly spaced plot indices

def format_date(x, pos=None):
thisind = np.clip(int(x + 0.5), 0, N - 1)
return date[thisind].strftime(‘%Y-%m-%d’)

ax = axes[1]
ax.plot(ind, r.adj_close, ‘o-’)
ax.xaxis.set_major_formatter(ticker.FuncFormatter(format_date))
ax.set_title(“Custom tick formatter”)
fig.autofmt_xdate()

plt.show()


In [ ]:


## 绘制分类变量

In [18]:

import matplotlib.pyplot as plt

data = {‘apples’: 10, ‘oranges’: 15, ‘lemons’: 5, ‘limes’: 20}
names = list(data.keys())
values = list(data.values())

fig, axs = plt.subplots(1, 3, figsize=(9, 3), sharey=True) #subplot(几行,几列,图像大小(与行列要匹配))
axs[0].bar(names, values)
axs[1].scatter(names, values)
axs[2].plot(names, values)
fig.suptitle(‘Categorical Plotting’)


Out[18]:

Text(0.5, 0.98, ‘Categorical Plotting’)


[外链图片转存中...(img-RewEKlqj-1681776922773)]

In [19]:

cat = [“bored”, “happy”, “bored”, “bored”, “happy”, “bored”]
dog = [“happy”, “happy”, “happy”, “happy”, “bored”, “bored”]
activity = [“combing”, “drinking”, “feeding”, “napping”, “playing”, “washing”]

fig, ax = plt.subplots()
ax.plot(activity, dog, label=“dog”)
ax.plot(activity, cat, label=“cat”)
ax.legend()

plt.show()


[外链图片转存中...(img-BlFiGTdS-1681776922774)]

## 绘制两曲线的相干性

In [22]:

import numpy as np
import matplotlib.pyplot as plt

Fixing random state for reproducibility

np.random.seed(19680801)

dt = 0.01
t = np.arange(0, 30, dt)
nse1 = np.random.randn(len(t)) # white noise 1
nse2 = np.random.randn(len(t)) # white noise 2

Two signals with a coherent part at 10Hz and a random part

s1 = np.sin(2 * np.pi * 10 * t) + nse1
s2 = np.sin(2 * np.pi * 10 * t) + nse2

fig, axs = plt.subplots(2, 1)
axs[0].plot(t, s1, t, s2)
axs[0].set_xlim(0, 2)
axs[0].set_xlabel(‘time’)
axs[0].set_ylabel(‘s1 and s2’)
axs[0].grid(True)

cxy, f = axs[1].cohere(s1, s2, 256, 1. / dt) # 俩曲线的相干度曲线
axs[1].set_ylabel(‘coherence’)

fig.tight_layout()
plt.show()


![img](

你可能感兴趣的:(Python,numpy,pandas,matplotlib)