Seaborn是对matplotlib的扩展,是一个数据可视化库,提供更高级的API封装,在应用中更加的方便灵活。下面我简单介绍一下他的最基本用法,实际应用的时候,可以直接从文档中查找这个库,这时候使用就很快捷了。
首先将使用它所需要的库导入进来,当然,其中包括numpy之类的是为了演示它的功能才导入的,大家要先理解一下每个库的作用。
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrameimport seaborn as sns # seaborn习惯简写为sns
如果在 ipython,可以通过 %matplotlab 来解决每次通过 plt.show() 来显示图像,或者 jupyter notebook 中可以使用%matplotlib inline,后面程序我就省略了 plt.show() ,可以根据自己的环境选择显示图像的方式。
matplotlib
s1 = Series(np.random.randn(1000)) # 生成1000个点的符合正态分布的随机数plt.hist(s1) # 直方图,也可以通过plot(),修改里面kind参数实现s1.plot(kind='kde') # 密度图
seaborn
s1 = Series(np.random.randn(1000)) # 生成1000个点的符合正态分布的随机数sns.distplot(s1,hist=True,kde=True,rug=True) # 前两个默认就是True,rug是在最下方显示出频率情况,默认为False# bins=20 表示等分为20份的效果,同样有label等等参数sns.kdeplot(s1,shade=True,color='r') # shade表示线下颜色为阴影,color表示颜色是红色sns.rugplot(s1) # 在下方画出频率情况
给出两种方式通过最基本的方式画出来的效果,怎么样,是不是发现seaborn很强大。
下载实验数据
df = sns.load_dataset('flights') # 在线下载一个数据用于实验,在sns.load_dataset()函数里有很多的数据,想了解更多的可以到GitHub中找到源码,你就会很清楚了
我们可以先看一下里面的数据,可以看到,这是一个航空的数据,里面有年、月和乘客数量,接下来我们就要在这份数据上进行分析。
数据处理
我们可以通过透视表来先对这份数据进行一下处理,大家可以自己试一下,这样生成的结果是以年为columns,以月为index,表内数据为对应的乘客数量。
df = df.pivot(index='month',columns='year',values='passengers') # 生成一个透视表,得到一个以年、月为轴的二维数据表
绘制柱状图
s = df.sum()# 通过matplotlib绘出图形s.plot(kind='bar')# 通过seaborn绘出图形sns.barplot(x=s.index,y=s.values)
绘制热力图
df.plot() # 线性的显示数据情况# sns.heatmap(df) # 生成热力图# sns.heatmap(df,annot=True,fmt='d') # annot参数是指显示数据,fmt='d'是指以整数形式显示
axes_style and set_style
x = np.linspace(0,14,100)y1 = np.sin(x)y2 = np.sin(x+2)*1.25def sinplot(): plt.plot(x,y1) plt.plot(x,y2)sinplot() # 以matplotlib显示,生成两个函数图像
# seaborn的5种装饰风格styles = ['darkgrid','dark','white','whitegrid','tricks'] # 颜色代表背景颜色,grid代表是否有网格sns.set_style(style[0]) # 进行装饰,括号内可以直接写装饰风格sinplot() # 经过修饰之后的图像sns.axes_style() # 显示当前主题的内容,这些数据都可以修改微调# 更改的时候就将其信息的以字典形式复制到set_style()里,当做参数来修改(注意是以字典的形式)sns.set() # 设置风格为空,即清空自己定义的,恢复到默认的时候
plotting_context and set_context
context = ['paper','notebook','talk','poster'] # seaborn本身定义好的sns.set_context('paper',rc={'grid.linewidth':3.0}) # rc参数sinplot()sns.plotting_context() # 显示出当前状态的数据sns.set() # 恢复到默认
图像貌似一样,但并不是没有成功,只是变化比较细微,真正用到的时候就可以体会到了。
# 先绘制一个图像def sinplot1(): x = np.linspace(0,14,100) plt.figure(figsize=(8,6)) # 图像比较小时,通过这个函数更改大小 for i in range(4): plt.plot(x,np.sin(x+i)*(i+0.75),label='sin(x+%s)*(%s+0.75)' % (i,i)) plt.legend()sinplot1()
# 引入seabornsns.color_palette() # 使用调色板# 不传入参数返回当前使用的调色板(RGB)sns.palplot(sns.color_palette()) # 画出调色板,参数为上面的调色板
接下来,我们就要调整我们的调色板了。
pal.style = ['deep','nuted','pastel','bright','dark','colorblind'] # seaborn默认定义的调色板# 第一种设置画板方式sns.set_palette(sns.color_palette('dark')) # 设置色板sns.set() # 恢复默认风格# 第二种设置画板方式,并且最后恢复到默认with sns.color_palette(): sinplot1() # 在内部调整画板输出图形,当with结束时,则恢复默认
调色板里的颜色是定义好的,那么如果我们将要绘制的图形包括很多的函数,需要更多的颜色,该怎么办呢?
# 默认提供的色板数量是固定的,如果图像是更多的函数,那么颜色将循环色板中的风格。如果想不使他颜色有相同,可以通过sns.color_palette()来修改sns.color_palette([(0.5,0.2,0.6),(0.3,0.3,0.4)]) # 因为色板是以列表的形式存储的,里面的每种风格以元组的形式存在所以需要用[()]# 第二种增加色板颜色的方法sns.color_palette('hls',8) # hls方法,后面写参数8,即生成有8种不同颜色的色板