# 加载yellowbrick数据集
import os
import pandas as pd
FIXTURES = os.path.join(os.getcwd(), "data")
df = pd.read_csv(os.path.join(FIXTURES,"iris.csv"))
df.head()
sepal_length | sepal_width | petal_length | petal_width | species | |
---|---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 | setosa |
1 | 4.9 | 3.0 | 1.4 | 0.2 | setosa |
2 | 4.7 | 3.2 | 1.3 | 0.2 | setosa |
3 | 4.6 | 3.1 | 1.5 | 0.2 | setosa |
4 | 5.0 | 3.6 | 1.4 | 0.2 | setosa |
df.head().to_dict()
{'sepal_length': {0: 5.1, 1: 4.9, 2: 4.7, 3: 4.6, 4: 5.0},
'sepal_width': {0: 3.5, 1: 3.0, 2: 3.2, 3: 3.1, 4: 3.6},
'petal_length': {0: 1.4, 1: 1.4, 2: 1.3, 3: 1.5, 4: 1.4},
'petal_width': {0: 0.2, 1: 0.2, 2: 0.2, 3: 0.2, 4: 0.2},
'species': {0: 'setosa', 1: 'setosa', 2: 'setosa', 3: 'setosa', 4: 'setosa'}}
import warnings
warnings.filterwarnings('ignore')
import numpy as np
from scipy.stats import norm
import seaborn as sns
import matplotlib.pyplot as plt
get_ipython().run_line_magic('matplotlib', 'inline')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
df.columns
Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
'species'],
dtype='object')
plt.style.available
['Solarize_Light2',
'_classic_test_patch',
'_mpl-gallery',
'_mpl-gallery-nogrid',
'bmh',
'classic',
'dark_background',
'fast',
'fivethirtyeight',
'ggplot',
'grayscale',
'seaborn-v0_8',
'seaborn-v0_8-bright',
'seaborn-v0_8-colorblind',
'seaborn-v0_8-dark',
'seaborn-v0_8-dark-palette',
'seaborn-v0_8-darkgrid',
'seaborn-v0_8-deep',
'seaborn-v0_8-muted',
'seaborn-v0_8-notebook',
'seaborn-v0_8-paper',
'seaborn-v0_8-pastel',
'seaborn-v0_8-poster',
'seaborn-v0_8-talk',
'seaborn-v0_8-ticks',
'seaborn-v0_8-white',
'seaborn-v0_8-whitegrid',
'tableau-colorblind10']
plt.style.use( 'seaborn-v0_8')
条形图(柱状图)展示每个字符特征的频数分布。
df[‘字符特征’].value_counts().plot(kind=‘bar’)
df['species'].value_counts().plot(kind='bar') # 均衡的一笔
直方图展示数字特征的分布情况。
df[‘数字特征’].plot(kind=‘hist’)
df['sepal_length'].plot(kind='hist')
from scipy.stats import gaussian_kde
# 绘制直方图
ax = df['sepal_length'].plot(kind='hist', bins=10, density=True)
# 计算核密度估计
density = gaussian_kde(df['sepal_length'])
x, y = np.linspace(df['sepal_length'].min(), df['sepal_length'].max(), 100), density(np.linspace(df['sepal_length'].min(), df['sepal_length'].max(), 100))
# 绘制拟合曲线
ax.plot(x, y) # ,color='red'
# 显示图形
plt.show()
饼图展示分类结果的占比情况。
df[‘分类结果’].value_counts().plot(kind=‘pie’)
ax = df['species'].value_counts().plot(kind='pie') # 均衡的一笔
# 自定义ylabel
ax.set_ylabel(' ')
# 显示图形
plt.show()
箱线图展示不同字符特征对应的数字特征的分布情况。
df.boxplot(column=‘数字特征’, by=‘字符特征’)
df.boxplot(column='sepal_length', by='species') # ,color='orange'
# 自定义标题
plt.title(' ')
# 显示图形
plt.show()
折线图展示不同字符特征对应的数字特征的均值变化趋势。
df.groupby(‘字符特征’)[‘数字特征’].mean().plot(kind=‘line’)
df.groupby('species')['sepal_length'].mean().plot(kind='line')
散点图展示两个数字特征之间的相关性。
df.plot(kind=‘scatter’, x=‘数字特征1’, y=‘数字特征2’)
df.plot(kind='scatter', x='sepal_length', y='sepal_width')
箱线图展示数字特征的分布情况和异常值。
df.boxplot(column=‘数字特征’)
df.boxplot(column='sepal_length') # ,color='#4C72B0'
核密度估计图展示数字特征的概率密度分布。
df[‘数字特征’].plot(kind=‘density’)
df['sepal_length'].plot(kind='density')
交叉表展示字符特征和分类结果之间的频数统计。
pd.crosstab(df[‘字符特征’], df[‘分类结果’]).plot(kind=‘bar’)
pd.crosstab(df['species'], df['species']).plot(kind='bar')