一、 数组的集中趋势
集中趋势最能包含数组关键特征
均值 –
避免使用的情况:样本中极值且极值在使用场景中不常出现(即是否有异常值)
中位数—比均值好在不受极端值的影响;
众数—很好的反应的数据的集中趋势(用户量最大);
EXCEL: 函数
均值 average
中位数median
Quartile() 0-最小值,1,下四分位数,2-中位数,3-上四分位数,4-最大值
众数 mode
R
均值:mean
中位数 median
众数: 无内置函数
二、 数组的离散程度
极差,方差,标准差 三个数据来分析离散程度,离散程度考察数据的稳定性
极差—
最大值-最小值
比如 某地的温差过大
方差—
每一个变量与总体均值间的差异,但是实际过程中总体数据很大,故合理的采用样本均值来代替总体均值;
[(x1-x均)^2+…+ (xn-x均)^2]/(n-1)
标准差
方差开方
因为方差平方的不止是数值,还有数据的单位,为了将方差的单位还原成盒原数组一致,引入标准差。
EXCEL
极差: MAX-MiN
方差:Var(数组)
标准差:stdev(数组)
R
极差:max(数组)-min(数组)
方差:VAR(数组)
标准差:sd(数组)
总结: 离散程度标志着数组的稳定性的高低,两个数组的数据对
比的时候,综合比较均值和标准差或者方差,能够更好的理解数
据及其背后的现象。
最常用的离散程度的指标是标准差;
三、 频度分析
所有的分析业务都是分类问题;
指用一定的分类方式将数组分类,然后统计各分组下的样本数量
,以图表辅助,更直观的方式描述出数组的分布趋势的一种方法;
业务意义:
大问题边小问题,聚焦在需要关注的群体上;
找到合理的分类机制,长期分析数据;
频数分度表
如:
0-100 23
101-200 34
201-300 455
四、 数据分布
数据变量的随机与连续性-小数点后能有几位
1、 随机变量
离散型随机变量
------数据可以一一列出,如部门的员工数,一个月的天数;
连续型随机变量
------数据不可以一一列出,例如用户使用app的时间长度,人体的
体温;
当离散型变量非常庞大时可以近似的看成一个连续型随机变量;
2、 伯努利分布:
又称(0-1)分布,如抛硬币,一面记为1,概率为P,另
一面记为0,概率为1-p;
3、 二项分布
将一个伯努利分实验进行N次,实验结果记为二项分布,记为 X-B(N,P)
则P(x=k)=Cnk *p^k*(1-p)^(n-k)
当n=1时,二项分布就为伯努利分布,及特殊的二项分布
4、
当计算机不发达时,二项分布的计算量庞大时,人的计算能力不
足以完成二项分布的计算结果,因此科学家推导出了二项分布的
近似分布,泊松分布
P(X=K)= (λ^ k)*e^(-λ) /k! λ时一个 常数,当p小于0.1时,λ=np;
5、分布函数:
对于连续型随机变量,我们不可能像离散型随机变量一样,去列出每个值的分布规律,因此当我们描述一个连续型随机变量时,需要引入新的方式:分布函数(累计分布函数)
6、正态分布------无限切分的二项分布
分布函数和概率密度函数
• 若连续型随机变量的x的概率密度为
常见阿拉伯字母读音
α --- alpha
β----beta
σ----sigma
γ---gamma
反3--epsilon
δ--delta
记为 X-N(μ,σ^2) ,期望(均数)μ和标准差σ,σ2为方差;
当期望(均数)μ=0和标准差σ,方差σ2=1时称为标准正态分布
在标准正太分布中,随机变量在(-1,1),即一倍标准差的概率
时68.3%;
在两倍标准差,(-2,2)中的概率是95.5%;
在三倍标准差中分布的概率是(-3,3)99.7%;
对于正态分布,我们需要知道三件事
1、它的图长什么样?
2、它的链各个参数,数学期望(均值)μ和标准差σ
3、对于这个图的解释是:平均数周围的得分在总体上站到大多数;
1、如何从 频度、集中趋势、离散程度以及分布几个维度全面整体地描述一个统计样本
2、熟悉方差概念
3、建立起针对数组进行频度分析的基本概念,并能够进行合理有效的分组
4、掌握数据分布从底层推导到正态分布的思维过程