在进行数据分析前最重要的一点,是了解你的数据,最直接最直观了解数据的方法呢,就是把他的分布,走势等等特征在一张图片上画出来。
seaborn是一个基于matplotlib的数据可视化库,他使用起来非常的简单,这一期,我们就利用十分钟左右的时间,零基础入门seaborn!
首先我们导入需要的几个库
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
导入我们接下来需要用到的数据集
tips = sns.load_dataset('tips', data_home='seaborn-data-master/')
tips.head()
简单看一下这个数据集
total_bill | tip | sex | smoker | day | time | size | |
---|---|---|---|---|---|---|---|
0 | 16.99 | 1.01 | Female | No | Sun | Dinner | 2 |
1 | 10.34 | 1.66 | Male | No | Sun | Dinner | 3 |
2 | 21.01 | 3.50 | Male | No | Sun | Dinner | 3 |
3 | 23.68 | 3.31 | Male | No | Sun | Dinner | 2 |
4 | 24.59 | 3.61 | Female | No | Sun | Dinner | 4 |
sns.relplot(x='total_bill', y='tip', data=tips)
# 指定x轴、y轴和数据
大概可以看到,随着账单的总金额升高,顾客给予的小费tips也在升高
再来看看这种变化和星期之间有什么联系
sns.relplot(x='total_bill', y='tip', data=tips, hue='day')
# 指定hue以后,根据不同的hue图片中会显示出不同的颜色
最高的几个小费都出现在了星期六,这样看好像小费的多少和周末有点关系
进一步的,来看看他们和午饭 / 晚饭之间有没有什么联系,既然我们对day用了hue参数,那我们这次用style参数来试试看会发生什么
sns.relplot(x='total_bill', y='tip', data=tips, hue='day', style='time')
# style参数指定后,根据不同的时间,我们发现我们的点点分别变成了叉叉和点点
源数据中还有最后一列size我们没有用上,这样吧,按照不同的size我们给我们的点点赋予不同的大小吧
sns.relplot(x='total_bill', y='tip', data=tips, hue='day', style='time', size='size')
ok!现在我们有了一个非常漂亮的数据可视化图片!
总结一下:
relplot(x, y, data=tips, hue, style, size)
x:x轴的数据
y:y轴的数据
data:所有数据
hue:根据不同的数据显示不同颜色
style:不同的图例形状
size:大小