机器学习——seaborn可视化

主要记录seaborn可视化学习笔记(明白有哪些绘制图像的函数可用)。

文章目录

  • 一、seaborn原理
  • 二、变量分布
    • 1.sns.boxplot():查看数值变量的取值范围
    • 2.sns.displot():查看变量的分布
    • 3.sns.jointplot():绘制两个变量的联合分布和各自分布
    • 4.sns.pairplot():成对绘制所有数值变量的联合分布
    • 参考资料


一、seaborn原理

机器学习——seaborn可视化_第1张图片
图片来源:https://www.bilibili.com/video/BV1VX4y1F76x/

  • boxenplot:适合大数据
  • 不同类别中数值变量的分布图:stripplot;swarmplot;violinplot
  • FaceGrid,PairGrid可以自定义绘制函数

查看seaborn版本:sns.__version__
版本更新:pip install —upgrade seaborn

二、变量分布

1.sns.boxplot():查看数值变量的取值范围

sns.boxplot():查看数值变量的取值范围,是否有异常值。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

print(sns.__version__)  
# print(sns.get_dataset_names())

df = pd.read_excel('D:/1.xlsx')

sns.boxplot(data=df,x="Height")
plt.show()

机器学习——seaborn可视化_第2张图片

2.sns.displot():查看变量的分布

  • sns.displot(kind = hist) #绘制直方图
    直方图:sns.histplot(bins,hue,shrink)
    bins:改变bin numbers
    hue:类别变量
    shrink:缩放因子
  • sns.displot(kind = kde) #绘制核密度估计值(kernel density estimate (KDE)),是一种可视化数据集中观测值分布的方法,类似于直方图。KDE使用一个或多个维度的连续概率密度曲线表示数据。
  • sns.displot(kind = ecdf) #表示低于数据集中每个唯一值的观察值的比例或计数。与直方图或密度图相比,它的优点是每个观察结果都是直接可视化的,这意味着不需要调整分箱或平滑参数。
penguins = sns.load_dataset("penguins")
sns.ecdfplot(data=penguins, x="flipper_length_mm")

机器学习——seaborn可视化_第3张图片

  • sns.countplot(data=df,x=“class”) 统计个数

3.sns.jointplot():绘制两个变量的联合分布和各自分布

sns.jointplot(dataset,x,y,kind)

sns.jointplot()函数的升级版:
JoinGrid,可以通过g.plot()自定义函数。g = sns.JoinGrid(); g.plot(sns.histplot,sns.boxplot)

4.sns.pairplot():成对绘制所有数值变量的联合分布

sns.pairplot()函数的升级版:
PairGrid,可以通过g.map()自定义绘制函数

参考资料

https://www.bilibili.com/video/BV1VX4y1F76x/

https://blog.csdn.net/qq_45176548/article/details/117305614?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_title~default-1.queryctrv2&spm=1001.2101.3001.4242.2&utm_relevant_index=4

你可能感兴趣的:(#,python,#,机器学习,机器学习,python)