10.13 Seaborn 常用图像绘制

知识点

1.置信水平 2.

1. 数据集下载

image.png
image.png

2. 以鸢尾花数据和泰坦尼克号为例

2.1 线型图

iris = sns.load_dataset('iris')
iris.head()


image.png

2.2展示线型图

x是要展示的分类数据,y是要展示每类数据的聚合值。
用seaborn 要考虑横轴放什么,纵轴放什么。


image.png

一组数据的2种展示方法
(1) sns.lineplot(x=np.arange(iris.shape[0]), y='sepal_length', data=iris) # seaborn绘图,给两组数据,如果只给标签,要加data,会默认根据data读取标签数据。 如果不给标签,data.sepal_length也可以。


image.png

(2)plt.plot(iris.sepal_length) # plt绘线型图,横轴默认填充数值。0-n-1(多少个)


image.png

2.3展示条形图

sns.barplot(x='species', y='sepal_length', data=iris, ci=95) # 绘制的是不同种类的鸢尾花数据在sepal_length上的平均值,还给了一个置信区间。
置信水平决定了置信区间,置信区间是实验次数有多少次是可信的,
100次实验有95次实验范围是包含真实值的,置信区间用置信水平来认定,和统计区间有关。


image.png

对泰坦尼克号数据
查看不同性别下年龄的均值,关注x放什么,y放什么


image.png

sns.barplot(x='sex', y='age', data=titanic, estimator=np.mean) # estimator在集成学习里是基学习器,也就是算法。


image.png

可以用series,不用再指定data
sns.barplot(x=titanic.sex, y=titanic.age) # x,y也可以是series,不用指定data# 指定data,是根据data和指定的字段读取数据。


image.png

等同于根据sex分组,求age的均值再plt展示
titanic.groupby('sex')['age'].mean().plot(kind='bar')


image.png

countplot 性别的男女比
titanic.sex.value_counts().plot(kind='bar')


image.png

sns.countplot(y='sex', data=titanic) # countplo计数,一般对离散字段进行统计


image.png

性别中男女中获救和没获救的多少。
分组里再分组
titanic.groupby(['sex','survived'])['age'].mean().plot(kind='bar')


image.png

sns.barplot(x='sex', y='age', data=titanic, hue='survived',
hue_order=[1,0], order=['female','male'], palette='Blues')# 横轴sex, 纵轴age,再根据分组因子'survive'分组,求性别中存活和没存活的年龄的平均值。
分组因子survive 的值0,1,顺序变化【1,0】,根据分组因子的取值来变化。可以只看【0】。
order解决sex的排序问题,hue_order解决分组后的分组,survive的排序问题。


image.png

颜色的另一种方法
image.png

2.4 直方图

sns.distplot(a=titanic.age) # 直方图只有一个a,年龄的密度density


image.png

3 常用图像

3.1 sns.lineplot 线型图

线型图一般是展示A,B的线性变化。横轴一定是一个顺序数据,如果不是,图形会凌乱。

鸢尾花数据集
iris = iris.reset_index()
iris.head()

image.png

sns.lineplot(x='index', y='sepal_length', data=iris, hue='species')
image.png

可以设置不同的点型和大小
markers = {
'setosa':'',
'virginica':'
',
'versicolor':'o'
}
sns.scatterplot(x='sepal_length', y='sepal_width', data=iris, hue='species',style='species',
markers=markers, sizes={
'setosa':200,
'virginica':300,
'versicolor':400
})
image.png

3.2 散点图 适合连续数据和连续数据,如果是离散数据和连续数据,看分布,用swarmplot, boxplot 和 violinplot比较好

scatterplot 散点图
sns.scatterplot(x='species', y='sepal_width', data=iris)


image.png

boxplot 箱线图
sns.boxplot(x='species', y='sepal_width', data=iris)


image.png

swarmplot
sns.swarmplot(x='species', y='sepal_width', data=iris)


image.png

violinplot 琴图 分裂点可以设置琴左右不同为第2个分组。
sns.violinplot(x='smoker', y='total_bill', data=tips, hue='sex', split=False)


image.png

stripplot 没有swarmplot好用
sns.stripplot(x='sex', y='total_bill', data=tips)


image.png

3.3 热图

sns.heatmap(data=tips[['total_bill']][:10], annot=True, vmin=0, vmax=100) # 重点:可设置vmin和vmax,从而通过颜色看出数据的主要分布。annot=True 可以显示数据


image.png

热图常用关系图
sns.heatmap(iris.corr().drop(labels=['index'], axis=1),
annot=True, vmin=-1, vmax=1, cmap='coolwarm') # 颜色最好设置对比色。


image.png

3.4 直方图,地毯图,kde图像

sns.distplot(a=tips.total_bill, rug=False, kde=True, hist=False) # # hist=True, kde=True, rug=False, 可以通过设置3个参数得到不同的图像,地毯图是在坐标上的密集的。


image.png

3.5 高级的对比图 : facegrid

fg = sns.FacetGrid(data=tips, row='sex', col='day') # 设置网格,行代表sex,列代表day, 有2个sex值,分别为第一行和第2行。

fg.map(plt.scatter, "total_bill", "tip").add_legend()

fg.map(plt.hist, 'tip').add_legend() # 通过fg对象绘制图像。

image.png

3.6 pairplot对图

sns.pairplot(data=tips, hue='sex')


image.png

iris.head()


image.png

sns.pairplot(data=iris, hue='species')


image.png

你可能感兴趣的:(10.13 Seaborn 常用图像绘制)