seaborn高级应用

一、单变量分析绘图

1、在seaborn里最常用的观察单变量分布的函数是distplot()，默认地，这个函数会绘制一个直方图，并拟合一个核密度估计。

sns.distplot(data, bins, hist = True, kde = True)

2、data参数记录绘图所用的数据，而bins参数在绘制直方图时可以进行设置，用于设置分组的个数，默认值时，会根据数据的情况自动分为n个组，若是想指定分组的个数，可以设置该参数，然后计算我们可以增加其数量，来看到更为详细的信息。

3、hist和kde参数用于调节是否显示直方图及核密度估计图，默认hist、kde均为True，表示两者都显示。我们可以通过修改参数为False选择是否将其中之一去掉。

4、如果我们只想要显示概率密度曲线，不想显示柱状图，我们也可以使用sns.kdeplot()函数绘制数据的概率密度曲线图。

sns.kdeplot(data1, data2, shade = False)

二、绘制双变量联合分布图

1、在Seaborn中绘制连续数值型双变量我们使用sns.jointplot():

seaborn.jointplot(x, y, data=None, kind='scatter')

2、x、y：分别记录x轴和y轴的数据名称。

3、data：数据集，data的数据类型为DataFrame。

4、kind：用于设置图像的类型，可选的类型有：'scatter' | 'reg' | 'resid' | 'kde' | 'hex'，分别表示散点图、回归图、残差图、核密度图和蜂巢图。

5、参数x_jitter，这个参数可以设置size值的偏离范围，这里size代表用餐人数，那么我们设置的x_jitter应该在0-1之间，我们设置为0.3,散点图显得更易观察。

sdata = data[['size','tip']]

ns.jointplot(x='size', y='tip', data=data,kind='reg',x_jitter=0.3)

三、多变量关系分布图

1、使用seaborn中的pairplot()方法，就可以绘制连续数值型多变量关系分布图。

sns.pairplot( data, hue, vars, kind, diag_kind)

2、data表示绘图所用到的数据集

3、hue参数表示按照某个字段进行分类

4、vars参数可以用于筛选绘制图像的变量，用列表的形式传入列名称

5、kind参数用于设置变量间图像的类型，可以选择'scatter'散点图，或者 'reg'回归图

6、diag_kind用于设置对角线上的图像类型，可以选择'hist'直方图，或者'kde'核密度图

7、也可以使用pairplot函数绘制两个变量的关系分布图。

使用kind参数设置两个变量间使用回归图，使用diag_kind参数设置对角线上的图像类型为密度图。

sns.pairplot(data, hue='species',vars=['sepal_length', 'sepal_width'],kind='reg', diag_kind='kde')