09-11 概率基础

概率统计基础

一、 数组的集中趋势

集中趋势最能包含数组关键特征

均值 –
避免使用的情况:样本中极值且极值在使用场景中不常出现(即是否有异常值)

中位数—比均值好在不受极端值的影响;

众数—很好的反应的数据的集中趋势(用户量最大);

EXCEL: 函数
均值 average
中位数median
Quartile() 0-最小值,1,下四分位数,2-中位数,3-上四分位数,4-最大值
众数 mode

R
均值:mean
中位数 median
众数: 无内置函数

二、 数组的离散程度

极差,方差,标准差 三个数据来分析离散程度,离散程度考察数据的稳定性

极差—
最大值-最小值
比如 某地的温差过大
方差—
每一个变量与总体均值间的差异,但是实际过程中总体数据很大,故合理的采用样本均值来代替总体均值;
[(x1-x均)^2+…+ (xn-x均)^2]/(n-1)

标准差
方差开方
因为方差平方的不止是数值,还有数据的单位,为了将方差的单位还原成盒原数组一致,引入标准差。

EXCEL和R语言中的实现

EXCEL

	极差: MAX-MiN
	方差:Var(数组)
	标准差:stdev(数组)

R

	极差:max(数组)-min(数组)
	方差:VAR(数组)
	标准差:sd(数组)


总结: 离散程度标志着数组的稳定性的高低,两个数组的数据对
比的时候,综合比较均值和标准差或者方差,能够更好的理解数
据及其背后的现象。

最常用的离散程度的指标是标准差;

三、 频度分析

所有的分析业务都是分类问题;

指用一定的分类方式将数组分类,然后统计各分组下的样本数量
,以图表辅助,更直观的方式描述出数组的分布趋势的一种方法;

业务意义:
大问题边小问题,聚焦在需要关注的群体上;
找到合理的分类机制,长期分析数据;

频数分度表
如:
0-100 23
101-200 34
201-300 455

四、 数据分布

数据变量的随机与连续性-小数点后能有几位

1、 随机变量

离散型随机变量

------数据可以一一列出,如部门的员工数,一个月的天数;

连续型随机变量

------数据不可以一一列出,例如用户使用app的时间长度,人体的
体温;

当离散型变量非常庞大时可以近似的看成一个连续型随机变量;

2、 伯努利分布:

又称(0-1)分布,如抛硬币,一面记为1,概率为P,另

一面记为0,概率为1-p;

3、 二项分布

将一个伯努利分实验进行N次,实验结果记为二项分布,记为 X-B(N,P) 
则P(x=k)=Cnk *p^k*(1-p)^(n-k)   
当n=1时,二项分布就为伯努利分布,及特殊的二项分布

4、

当计算机不发达时,二项分布的计算量庞大时,人的计算能力不
足以完成二项分布的计算结果,因此科学家推导出了二项分布的

近似分布,泊松分布

P(X=K)= (λ^ k)*e^(-λ) /k! λ时一个 常数,当p小于0.1时,λ=np;

5、分布函数:

对于连续型随机变量,我们不可能像离散型随机变量一样,去列出每个值的分布规律,因此当我们描述一个连续型随机变量时,需要引入新的方式:分布函数(累计分布函数)

6、正态分布------无限切分的二项分布

分布函数和概率密度函数

• 若连续型随机变量的x的概率密度为

常见阿拉伯字母读音

α --- alpha
β----beta
σ----sigma
γ---gamma
 反3--epsilon
δ--delta

记为 X-N(μ,σ^2) ,期望(均数)μ和标准差σ,σ2为方差;
当期望(均数)μ=0和标准差σ,方差σ2=1时称为标准正态分布

在标准正太分布中,随机变量在(-1,1),即一倍标准差的概率
	时68.3%;
在两倍标准差,(-2,2)中的概率是95.5%;
在三倍标准差中分布的概率是(-3,3)99.7%;

对于正态分布,我们需要知道三件事

1、它的图长什么样?
2、它的链各个参数,数学期望(均值)μ和标准差σ
3、对于这个图的解释是:平均数周围的得分在总体上站到大多数;

总结:

1、如何从 频度、集中趋势、离散程度以及分布几个维度全面整体地描述一个统计样本
2、熟悉方差概念
3、建立起针对数组进行频度分析的基本概念,并能够进行合理有效的分组
4、掌握数据分布从底层推导到正态分布的思维过程

你可能感兴趣的:(知识要点)