统计学基础知识(一)

文章目录

    • 一、统计学基础知识
      • 1.总体和样本
      • 2.均值
      • 3.方差和标准差
      • 4.随机变量
      • 5.概率密度函数
    • 二、二项分布
    • 三、泊松分布
    • 四、大数定理
    • 五、正态分布
      • 1.正态分布的一些含义
      • 2.如何求解正态概率

一、统计学基础知识

1.总体和样本

统计学上的总体值得是准备对其进行测量、研究或分析的整个群体,可以是人、得分,也可以是糖果——关键在于总体指的是所有对象。一个统计样本就是从总体中选取的一部分对象。通过选取样本,使其恰当地代表总体,从而得到代表总体的一个子集。对于糖果公司曼帝糖果来说,一个口香糖球样本就是所选取的一小部分糖球,而不是每一粒糖球。

2.均值

均值:平均数的一般度量。平均数是量度数据集中趋势的一种方法。均值和平均数不就一回事吗?为什么还说均值是平均数的一般度量?可能以前有人让你计算过平均数。计算大量数据的平均数的一个方法是:将所有的数字加起来,然后除以数字个数。在统计学中,这样算出来的值叫做均值。而且平均数不止一种。如果你得知了某个数据集的平均数同时也知道了该平均数的种类,那么你将更好地理解这个数据集的真实情况。平均数的种类有:算术平均数、调和平均数以及集合平均数等。
在这里插入图片描述
第一种就是上面提到的将所有的数字加起来,然后除以数字个数所得到的均值;第二种均值则是考虑了每个数字出现的频数,频数用f表示。

统计学基础知识(一)_第1张图片

3.方差和标准差

方差:是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。标准差:方差的平方根。在量度数据的分散性上,标准差比方差更加直观,因为标准差能根据与均值的距离指出分散性,而方差是与均值根据距离的平方来指出数据的分散性。

统计学基础知识(一)_第2张图片

统计学基础知识(一)_第3张图片

4.随机变量

随机变量似乎也是变量的一种,它和传统变量有什么区别吗?传统变量是可求解变量,例如x+3=7,我们可以求得变量x的值为4。而随机变量虽然也可以取很多值,但这些变量无法求解,只能通过计算得出取某个值的概率。但要注意,随机不是随便,随机变量只能从某个固定范围内取值。随机变量通常用大写字母(如X)表示,这应该也是为了和可求解的传统变量区分开。随机变量与其说是一种变量,倒不如说它是一种函数,一种将随机过程映射到实际数值的函数,一种将随机过程量化的函数。假设我们需要量化一个随机过程:比如明天是否下雨,该过程可量化为:
在这里插入图片描述
其中X就是一个随机变量,它的取值是随机的,因为我们不确定明天是否下雨,但它的值只能从0和1当中选一个。当然也可以用其他数值来表示下不下雨,比如100,21等,这取决于你的需要。随机变量分为离散型随机变量和连续型随机变量,前者的取值是在整数范围内,后者的取值是在实数范围内。

5.概率密度函数

概率密度函数用于描述连续型随机变量的概率分布。概率密度函数f(x)是这样一种函数:通过它可以求出一个数据范围内的某个连续变量的概率,它向我们指出该概率分布的形状。如图就是一个概率密度函数的图形。
统计学基础知识(一)_第4张图片
概率密度函数有以下性质:
统计学基础知识(一)_第5张图片

二、二项分布

二项分布描述的是离散型的随机变量。二项分布包括以下条件:
(1)你正在进行一系列独立试验。
(2)每一次试验都存在失败和成功的可能,每一次试验成功概率相同。
(3)试验次数有限。假如在我们要进行一系列独立试验,每一次试验结果或成功或失败,成功概率为p,失败概率为q,且p+q=1。我们感兴趣的是这一系列试验中最终获得成功的次数。用X表示“n次试验中成功次数”,为了求得r次成功的概率,可用下列算式:
统计学基础知识(一)_第6张图片

三、泊松分布

泊松分布描述的是离散型的随机变量。泊松分布包括以下条件:
(1)单独事件在给定区间内随机、独立地发生,给定区间可以是时间或空间,例如可以是一个星期,也可以是一英里。
(2)已知该区间内的事件平均发生次数(或者叫做发生率),且为有限数值。该事件平均发生次数通常用希腊字母表示。
统计学基础知识(一)_第7张图片
统计学基础知识(一)_第8张图片

四、大数定理

随着样本数的增加,样本均值将近似于真正的期望值,或者说样本均值将收敛于总体均值或随机变量期望值。

五、正态分布

1.正态分布的一些含义

正态分布之所以被称为正态,是因为它的形态看起来合乎理想。在现实生活中,遇到测量值之类的大量连续数据时,你“正常情况下”会期望看到这种形态。正态分布具有钟形曲线,曲线对称,中央部位的概率密度最大。越是偏离均值,概率密度越小。均值和中位数位于中央,具有最大概率密度。
统计学基础知识(一)_第9张图片
统计学基础知识(一)_第10张图片
在这里插入图片描述
统计学基础知识(一)_第11张图片
统计学基础知识(一)_第12张图片

2.如何求解正态概率

可以通过求解概率密度函数曲线下方的面积求出概率。如图:
统计学基础知识(一)_第13张图片
求解概率三部曲:
(1)确定分布与范围:要确定分布的均值和方差以及需要求概率的那部分范围。(2)使其标准化:将普通的正态分布转化为标准正态分布。
(3)查找概率:一旦将正态分布转化为标准正态分布就可以通过查找正态分布的概率表来获取所求概率,因为概率表只给出了N(0,1)的概率。 当我们拿到一个确定的正态分布时,为便于求解概率需要将其标准化,通过下式可求出任何正态变量X的标准分:
统计学基础知识(一)_第14张图片
当将X转化为标准正态变量时,就可以对照概率表查找相应的概率了。如下图所示:
统计学基础知识(一)_第15张图片
参考资料:
《深入浅出统计学》
http://open.163.com/special/Khan/khstatistics.html 12-34集

你可能感兴趣的:(统计学基础知识(一))