立即学习:https://edu.csdn.net/course/play/6861/326790?utm_source=blogtoedu
连续性数据的可视化
直方图的绘制
1、直方图一般用来观察数据的分布形态,横坐标代表数值的均匀分段,纵坐标代表每个段内的观测数量(频数)
2、一般直方图都会与核密度图搭配使用,目的是更加清晰的掌握数据的分布特征
直方图的绘制
plt.hist(x,bins=10,normed=False,orientation='vertical',color=None,label=None)
x:指定要绘制的直方图的数据
bins:指定直方图条形个数
normed:是否将直方图的频数转换成频率
orientation:设置直方图的摆放方向,默认是垂直方向。
color:设置直方图的填充色
edgecolor:设置直方图的边框色
label:设置直方图的标签,可通过legend展示其图例。
import pandas as pd
import matplotlib.pyplot as plt
Titanic = pd.read_csv(r'E:\pylean\database\第8章 数据可视化\titanic_train.csv')
#print(Titanic)
#检查年龄是否有缺失,如果有使用any()返回True
any(Titanic.Age.isnull())
#可以选择删除有缺失的年龄数据
Titanic.dropna(subset=['Age'],inplace=True)
plt.hist(
x=Titanic.Age,
bins=20,
color='red',
edgecolor='black'
)
#添加x轴和y轴的标签
plt.xlabel('年龄')
plt.ylabel('统计')
plt.title('乘客年龄分布')
plt.show()
箱线图:
plt.boxplot(x,vert=None,whis=None,patch_artist=None,meanline=None,showmeans=None,showcaps=None,showbox=None,showfliers=None,boxprops=None,labels=None,flierprops=None,medianprops=None,meanprops=None,capprops=None,whiskerprops=None)
x:指定要绘制箱线图的数据
vert:是否要将箱线图垂直摆放,默认就是垂直摆放
whis:指定上下须与上下四分位的距离,默认是1.5倍的四分位差
patch_artist:bool 类型参数,是否填充箱线体的颜色,默认是False
meanline:bool类型参数,是否用线的形式表示均值,默认是False
showmeans:bool类型参数,是否显示均值,默认是False
showcaps:bool类型参数,是否显示箱线图顶端和末端的两条线(即上下须),默认是True
showbox:bool类型参数,是否显示箱线图的箱体,默认是True
showfliers:是否显示异常值,默认是True
boxprops:设置箱体的属性,如边框,填充色
labels:为箱线图添加标签,类似于图例的作用。
filerprops:设置异常值的属性,如线的类型、粗细等
meanprops:设置均值的属性,如点的大小、颜色等
capprops:设置箱线图顶端和末端的线条属性,如颜色和粗细等
whiskerprops:设置须的属性,如颜色、粗细、线的类型等。