统计学基础知识梳理(一)

1 样本与总体的定义: N是总体元素个数,n是样本元素个数

样本均值 \bar{x}  Sample mean                                            总体均值\mu  Population mean  

\bar{x} = \tfrac{1}{n}*\sum_{i=1}^{n}(xi)                                                                     \mu = \tfrac{1}{N}*\sum_{i=1}^{N}(xi)

2 总体方差:离中趋势的

\sigma ^{2} = \tfrac{1}{N}*\sum_{i=1}^{N}(x_{i} - \mu )^{2}

3 样本方差: 当出现下图的情况(总体均值不在样本内,即所取的样本实际不包含总体均值)时,样本方差实际上低估了总体方差,也就是S_{n}^{2}这个公式实际会低估总体方差。

S_{n}^{2}= \tfrac{1}{n}*\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}

下面给出总体方差的无偏估计:

S_{n-1}^{2}= \tfrac{1}{n-1}*\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}

统计学基础知识梳理(一)_第1张图片

4. 标准差:方差的平方根

5. 随机变量:实际上并不是传统意义上的变量,更像是随机过程映射到数值的函数,通过随机试验来赋值;可分为连续和离散型随机变量

6. 概率密度函数:主要解释什么是连续型随机变量,及其对应的概率分布

统计学基础知识梳理(一)_第2张图片

 

7. 二项分布

假设某个试验是伯努利试验,其成功概率用p表示,那么失败的概率为q=1-p。进行n次这样的试验,成功了x次,则失败次数为n-x,发生这种情况的概率可用下面公式来计算:

我们称上面的公式为二项分布(Binomial distribution)的概率质量函数。其中

                                               

组合公式,表示从n个不同元素中取出x个元素的所有组合的个数。

从二项分布公式可知,概率分布由试验次数n和"成功"概率p决定,因此二项分布的概率质量函数可以简写为X~B(n, p)。

性质:二项分布的均值和方差分别为np和npq

随机变量期望值的计算等同于总体(无穷总体)均值的计算,期望值就是总体均值。

随机变量期望值的计算方法:每个随机变量的实例乘以对应出现的频率。

为什么采用这种方法计算无穷总体的均值:因为无穷总体无法除以数据点的个数,因此用频率做权重,计算所有结果的加权平均值。

求随机变量无穷总体的均值,随机变量总体无穷是因为随机变量可以无止境的试验

注:随机变量离散的情况得到二项分布,随机变量连续的情况得到正太分布

 

8. 泊松分布:累计随机发生的次数增量过程

统计学基础知识梳理(一)_第3张图片

9. 大数定律:

在数学与统计学中,大数定律又称大数法则、大数律,是描述相当多次数重复实验的结果的定律。根据这个定律知道,样本数量越多,则其平均就越趋近期望值。

大数定律很重要,因为它“保证”了一些随机事件的均值的长期稳定性。 人们发现,在重复试验中,随着试验次数的增加,事件发生的频率趋于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具有稳定性。 比如,我们向上抛一枚硬币,硬币落下后哪一面朝上是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一,亦即偶然之中包含着必然。

10. 正太分布

特性:
1)集中性:曲线的最高峰位于正中央,且位置为均数所在的位置。
2)对称性:正态分布曲线以均数所在的位置为中心左右对称且曲线两段无线趋近于横轴。
3)均匀变动性:正态分布曲线以均数所在的位置为中心均匀向左右两侧下降。
4)曲线与横轴间的面积总等于1。
正态分布函数公式如下:

                                                      

公式解释:其中μ为均数,σ为标准差。μ决定了正态分布的位置,与μ越近,被取到的概率就越大,反之越小。σ描述的是正态分布的离散程度。σ越大,数据分布越分散曲线越扁平;σ越小,数据分布越集中曲线越陡峭  

统计学基础知识梳理(一)_第4张图片

 

 

 

 

 

你可能感兴趣的:(统计学基础知识梳理(一))