pairplot(data,hue,palette,x_vars,y_vars,kind,diag_kind,markers,height,aspect,corner,dropna,plot_kws,diag_kws)
参数:
data--要绘制的数据,为DataFrame类型;
hue--取值为data中的列索引,为分组变量,根据不同颜色来区分各个变量;
palette--为seaborn库颜色面板取值或者给出hue中各个类别对应颜色的字典;
x_vars--data中需要用到的索引名组成的横坐标的列表,默认用data中所有的数值型变量;
y_vars--data中需要用到的索引名组成的纵坐标的列表,默认用data中所有的数值型变量;
kind--对角线位置处统计图类型,默认为'scatter'即散点图,也可取值为'kde'、'hist'、'reg';diag_kind--矩阵图中非对角线处的统计图类型,可取值为'kde' (图2所示)'hist'(图3所示)、或None;
markers--hue中各类的散点类型,为列表;
height--每个图的高度,单位为英寸;
aspect--宽高比;
corner--默认为False,设置为True,则仅显示对角线及其下方统计图;
dropna--默认为True,在绘制数据前删除缺失值;
plot_kws--非对角线处统计图的属性设置;
diag_kws--对角线处统计图的属性设置;
import pathlib
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
dataset_path = keras.utils.get_file("auto-mpg.data", "http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data")
column_names = ['MPG','Cylinders','Displacement','Horsepower','Weight',
'Acceleration', 'Model Year', 'Origin']
raw_dataset = pd.read_csv(dataset_path, names=column_names,
na_values = "?", comment='\t',
sep=" ", skipinitialspace=True) # #sep: 指定分割符; skipinitialspace忽略分隔符后的空格
dataset = raw_dataset.copy()
dataset = dataset.dropna()#数据清洗
train_dataset = dataset.sample(frac=0.8,random_state=0) #frac取样比例, random_state如果值为int, 则为随机数生成器或numpy RandomState对象设置种子
test_dataset = dataset.drop(train_dataset.index) #取train_dataset的数据下标,并drop,形成test_dataset
sns.pairplot(train_dataset[["MPG", "Cylinders", "Displacement", "Weight"]], diag_kind="kde") #快速查看训练集中几对列的联合分布。
参考:https://blog.csdn.net/weixin_42504649/article/details/112661513