约定:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。
箱线图作为描述统计的工具之一,其功能有独特之处,主要有以下几点:
1.直观明了地识别数据批中的异常值
2.利用箱线图判断数据批的偏态和尾重
3.利用箱线图比较几批数据的形状
图中白点即为异常值,关于异常值 https://www.zhihu.com/question/36172806 有详解。
se=pd.Series(np.random.randint(1,10,10))
se.plot.box();
print(se)
0 5
1 1
2 2
3 6
4 8
5 3
6 4
7 8
8 4
9 8
dtype: int32
df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E'])
df.boxplot();
df.plot.box(vert=False, positions=[1, 4, 5, 6, 8]);
面积图又称区域图,强调数量随时间而变化的程度,也可用于引起人们对总值趋势的注意。堆积面积图还可以显示部分与整体的关系。折线图和面积图都可以用来帮助我们对趋势进行分析,当数据集有合计关系或者你想要展示局部与整体关系的时候,使用面积图为更好的选择。
df = pd.DataFrame(np.random.randint(0,10, (10,3)), columns=['a', 'b', 'c'])
df.plot.area(stacked=False);
df.plot.area();
散点图是指数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,通常用于回归分析,据此可以选择合适的函数对数据点进行回归拟合。
多组散点图通常用于聚类,能直观地看出每组数据点的分布。
df = pd.DataFrame(np.random.rand(50, 4), columns=['a', 'b', 'c', 'd'])
df.plot.scatter(x='a', y='b');
ax = df.plot.scatter(x='a', y='b', color='DarkBlue', label='Group 1');
df.plot.scatter(x='c', y='d', color='DarkGreen', label='Group 2', ax=ax);
类型3:
df.plot.scatter(x='a', y='b', c='c', s=50);
类型4:
df.plot.scatter(x='a', y='b', s=df['c']*200);
谢谢大家的浏览,
希望我的努力能帮助到您,
共勉!