机器学习笔记-数据的图表展示

统计图表

类别数据

  1. 条形图:条形图是用宽度相同的条形来展示各类频数的图形;
  2. 帕累托图:帕累托图将各类别数据出现的频数按从大到小排序后绘制的条形图;
  3. 饼图:饼图是用圆形及园内扇形的角度来表示一个样本(或总体)中各类别的频数占总频数数比例大小的图形;
  4. 环形图:环形图可以显示多个样本各类别频数占其相应总频数的比例;

数值数据

  1. 直方图:直方图是用来展示数值数据分布的一种常用图形;
  2. 箱型图:用来反映一组数据的分布;

其它图形

  1. 散点图:用二维坐标中两个变量各取值点的分布展示变量之间的关系图形;
  2. 气泡图:气泡图可以展示三维数据,即气泡的大小是第三维变量;
  3. 雷达图:雷达图从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成的多个区域就是雷达图;
  4. 轮廓图:轮廓图用横轴表示各个样本,纵轴表示每个样本的多个变量的取值,将不同样本的同一个变量的取值用折线连接;
  5. 时间序列图:折线图的横轴变为时间,纵轴为观测值,反映数据随时间变化的趋势,叫时间序列图;

箱型图

机器学习笔记-数据的图表展示_第1张图片
箱型图目的:用来反映一组数据的分布特征,是否存在离群点。

箱型图基本概念

中位数: 一组数据排序后处在50%位置上的数值;
四分位数: 一组数据排序后处在25%位置和75%位置上的两个分位数值,用 Q 75 % Q_{75\%} Q75% Q 25 % Q_{25\%} Q25%表示;
四分位距: Q 75 % − Q 25 % Q_{75\%}-Q_{25\%} Q75%Q25%
内围栏: Q 25 % Q_{25\%} Q25% Q 75 % Q_{75\%} Q75%的距离等于1.5倍四分位差的两个点;
外围栏: Q 25 % Q_{25\%} Q25% Q 75 % Q_{75\%} Q75%的距离等于3倍四分位差的两个点;
相邻值: 上下内围栏之间的最大值和最小值称为相邻值;
离群点: 大于上内围栏或者小于下内围栏的数值,也称外部点;

箱型图在数据分析中十分常见,一般用在寻找离群点。

你可能感兴趣的:(机器学习笔记,机器学习,sklearn,人工智能)