seaborn简明教程(一)

1. Seaborn简介

seaborn是基于matplotlib的数据可视化库。它在matplotlib的基础上,进行了更高级的API封装,从而使得绘图更加容易,不需要经过大量的调整,就能使图形变得精致。
seaborn的几个鲜明特点如下:

  • 绘图接口更加集成,可通过少量参数设置实现大量封装绘图
  • 多数图表具有统计学含义,例如分布、关系、统计、回归等
  • 对Pandas和Numpy数据类型支持非常友好
  • 风格设置更为多样,例如风格、绘图环境和颜色配置等

我们应该把seaborn视为matplotlib的补充,而不是替代物。由于seaborn是以matplotlib为基础,因此在使用seaborn前,还是应先学习matplotlib的相关知识。

2. 导入seaborn

seaborn的依赖库为numpyscipypandasmatplotlib

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats, integrate

3. 加载样本数据

seaborn附带了样本数据集,所有数据集均为csv格式,数据集默认存放在线上,地址为https://github.com/mwaskom/seaborn-data

获取样本数据地址seaborn.get_data_home()

函数签名为seaborn.get_data_home(data_home=None)

返回值为样本数据集的缓存地址。这个用于seaborn.load_dataset()

获取样本数据地址seaborn.get_data_home()

返回可用样本数据集的名称。

加载数据集seaborn.load_dataset()

默认从网络加载数据集。

函数的签名为seaborn.load_dataset(name, cache=True, data_home=None, **kws)
函数的参数为:

  • name:数据集的名称,对应https://github.com/mwaskom/seaborn-dataname.csv。字符串。
  • cache:是否从网络下载数据集。布尔值。可选参数。当取值为True时,首选从本地缓存加载数据,如果下载数据会将数据缓存在本地。
  • data_home:缓存目录。字符串,可选参数。默认值为None,即get_data_home()
  • kws:传递给pandas.read_csv()的附加参数。键值对,可选参数。

返回值为pandas.DataFrame

加载本地数据集

由于数据集默认从github下载,由于网络不稳定或者没有网络,所以直接访问数据集可能不方便,因此加载本地数据集比较灵活。

加载本地数据集的步骤如下:

  1. 直接从https://github.com/mwaskom/seaborn-data 下载数据集。
  2. 将数据集保存在同一个目录中,比如D:\seaborn-data
  3. 加载数据时,设置load_dataset函数的cache参数为Truedata_home参数为D:\seaborn-data。即sns.load_dataset('iris',data_home=r'D:\seaborn-data',cache=True)

加载自定义数据

除了seaborn附带的数据集,也可以自己创建数据。

根据load_data()函数概述可知,其原理就是利用pandas.read_csv()函数读取csv文件,因此,只要数据最终被转换为DataFrame格式即可。

你可能感兴趣的:(Matplotlib,matplotlib,seaborn,本地数据集,加载数据集)