Seaborn 可视化

Seaborn简介

Seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。

Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。

Seaborn和Pandas的API配合的很好,使用DataFrame/Series的数据就可以绘图 

Seaborn绘制单变量图

直方图

使用sns.distplot创建直方图

Seaborn 可视化_第1张图片

使用sns.distplot创建直方图

Seaborn 可视化_第2张图片 

密度图(核密度估计)

密度图是展示单变量分布的另一种方法,本质上是通过绘制每个数据点为中心的正态分布,然后消除重叠的图,使曲线下的面积为1来创建的

 密度图是展示单变量分布的另一种方法,本质上是通过绘制每个数据点为中心的正态分布,然后消除重叠的图,使曲线下的面积为1来创建的

Seaborn 可视化_第3张图片

计数图(条形图) 

计数图和直方图很像,直方图通过对数据分组描述分布,计数图是对离散变量(分类变量)计数。

Seaborn 可视化_第4张图片

Seaborn 可视化_第5张图片

 Seaborn 双变量数据可视化

在seaborn中,创建散点图的方法有很多

Seaborn 可视化_第6张图片

Seaborn 可视化_第7张图片 

创建散点图可以使用regplot函数。regplot不仅可以绘制散点图,还会拟合回归线,把fit_reg设置为False,将只显示散点图

Seaborn 可视化_第8张图片 

Seaborn 可视化_第9张图片 

  • lmplot函数和regplot函数类似,也可以用于创建散点图。
  • lmplot函数内部会调用regplot,两者的主要区别是regplot创建坐标轴,而lmplot创建图 
sns.lmplot(x='total_bill',y='tip',data = tips)

Seaborn 可视化_第10张图片 

还可以使用jointplot在每个轴上创建包含单个变量的散点图。

Seaborn 可视化_第11张图片 Seaborn 可视化_第12张图片

使用Seaborn的jointplot绘制蜂巢图,和使用matplotlib的hexbin函数进行绘制

 Seaborn 可视化_第13张图片

2D核密度图和kdeplot类似,但2D核密度图课展示两个变量

Seaborn 可视化_第14张图片 Seaborn 可视化_第15张图片

Seaborn 可视化_第16张图片 Seaborn 可视化_第17张图片

条形图也可以用于展现多个变量,barplot默认会计算平均值

Seaborn 可视化_第18张图片 Seaborn 可视化_第19张图片

箱线图用于显示多种统计信息:最小值,1/4分位,中位数,3/4分位,最大值,以及离群值(如果有)

Seaborn 可视化_第20张图片 Seaborn 可视化_第21张图片

关于箱线图

  • 箱子的中间有一条线,代表了数据的中位数
  • 箱子的上下底,分别是数据的上四分位数(Q3)和下四分位数(Q1)
  • 箱体包含了50%的数据。因此,箱子的高度在一定程度上反映了数据的波动程度
  • 上下边缘则代表了该组数据的最大值和最小值
  • 有时候箱子外部会有一些点,可以理解为数据中的“异常值” 

Seaborn 可视化_第22张图片 箱线图是经典的可视化方法,但可能会掩盖数据的分布,小提琴图能显示与箱线图相同的值 

小提琴图把"箱线"绘成核密度估计,有助于保留数据的更多可视化信息

Seaborn 可视化_第23张图片

Seaborn 可视化_第24张图片 成对关系

当大部分数据是数值时,可以使用pairplot函数把所有成对关系绘制出来

pairplot函数会为单变量绘制直方图,双变量绘制散点图 sns.pairplot(tips)

Seaborn 可视化_第25张图片

pairplot的缺点是存在冗余信息,图的上半部分和下半部分相同

可以使用pairgrid手动指定图的上半部分和下半部分

pair_grid = sns.PairGrid(tips)
pair_grid.map_upper(sns.regplot)
pair_grid.map_lower(sns.kdeplot)
pair_grid.map_diag(sns.histplot)
plt.show()

 Seaborn 可视化_第26张图片

 多变量数据

绘制多变量数据没有标准的套路

如果想在图中包含更多信息,可以使用颜色、大小和形状来区分它们

通过颜色区分

使用violinplot函数时,可以通过hue参数按性别(sex)给图着色 可以为“小提琴”的左右两半着不同颜色,用于区分性别

Seaborn 可视化_第27张图片

Seaborn 可视化_第28张图片 其它绘图函数中也存在hue参数

scatter = sns.lmplot(x='total_bill',y='tip',data = tips,hue='sex',fit_reg = False)

Seaborn 可视化_第29张图片 

通过向hue参数传入一个类别变量,可以让pairplot变得更有意义

sns.pairplot(tips,hue = 'sex') 

Seaborn 可视化_第30张图片 

通过大小和形状区分 

  • 可以通过点的大小表示更多信息,但通过大小区分应谨慎使用,当大小差别不大时很难区分
  • 在Seaborn中的lmplot,可以通过scatter_kws参数来控制散点图点的大小

scatter = sns.lmplot(x='total_bill',y='tip',data = tips,fit_reg=False,hue='sex',markers=['o','x']) 

Seaborn 可视化_第31张图片 

 Seaborn主题和样式

上面的Seaborn图都采用了默认样式,可以使用sns.set_style函数更改样式。

该函数只要运行一次,后续绘图的样式都会发生变化

Seaborn有5中样式:

  • darkgrid 黑色网格(默认)
  • whitegrid 白色网格
  • dark 黑色背景
  • white 白色背景
  • ticks 

fig,ax = plt.subplots()

ax = sns.violinplot(x='time',y='total_bill',hue='sex',data = tips,split = True) 

 Seaborn 可视化_第32张图片

你可能感兴趣的:(pandas数据处理,信息可视化,数据分析,pandas)