数据分析 NO.17 描述统计

第二十五天: 描述统计

连续型变量和分类型变量
id 一般也是分类变量。可以说没有大小的说法

图表法:
数据分析 NO.17 描述统计_第1张图片
相对频数分布: 频数/N N是全部的样本数据
百分数频数分布 : 相对频数分布 加个%

分类型数据:
第一反应 先想到频数!,条形图,饼形图

单变量数量型数据:
数据分析 NO.17 描述统计_第2张图片
每个组 组限不能重叠

双变量
数据分析 NO.17 描述统计_第3张图片
两个分类数据分析: 看一下交叉频率,看一下各自的频数
一个分类,一个数量: 可视化可以boxplot
两个连续性:先想到做散点图,看相关性。

数值方法:
数据分析 NO.17 描述统计_第4张图片

数据分析 NO.17 描述统计_第5张图片
中位数: 中间的那个数(排完序从小到大)

数据分析 NO.17 描述统计_第6张图片
标准差系数:S/X平均 %


Z-分数
经验法则:如果该观测值超过了3个标准差的量度,那么就是异常值(异常检测)

一般来说:2个标准是75%,3个标准差是89%,4个标准差是94%

60-70=-10
80-70=10
标准差为5  则范围是2个标准差,那么至少
(1-1/2*2)=75% 在此范围内

上图中:IQR=Q3-Q1

数据分析 NO.17 描述统计_第7张图片


值的范围[-1,+1] 可以说越接近于1,关系越强,越接近0,关系越弱。

你可能感兴趣的:(数据分析 NO.17 描述统计)