一些关于数据挖掘所需要的统计基础(5)

大家好~这一次我们来简单说一些关于数据挖掘所需要的统计学基础。不会很深奥哦,我尽量用大白话把它解释清楚。因为我也是大菜鸡,也还在学习

为了以后更好的完成我们的各项任务,所以有几个概念呢在这里预先做一下解释和说明。

1. 均值

2. 方差

3. 大数定理

4. 中心极限定理

5. 假设检测

6. p-value值的简单介绍


前几个概念都不难,主要是解释最后两个概念。

==================================

1. 均值

均值就是平均数······最为简单的一个概念

                                                                   

在这里不多做解释了····

==================================

2. 方差

上过高中的朋友应该都知道它吧。方差是各个数据分别与其平均数之差的平方的和的平均数,用字母D表示。在概率论和数理统计中,方差(Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度

                                                         

x 表示样本的平均数,n 表示样本的数量,xi 表示个体,而s^2就表示方差。

==================================

3. 大数定理

可以把它简单的理解为:

当样本的数量越来越多,那么它的期望值,也就越接近平均值。当大量重复某一实验时,最后的频率无限接近事件概率。

==================================

4. 中心极限定理

简单的理解为:

在适当条件下,大量相互独立的、随机的变量的均值,经过适当的标准化后,其分布收敛于正态分布。

==================================

5/6. 假设检验和p-value值的介绍

重点来了。有点小复杂。

用一个例子来说明一下吧

一个司机酒驾问题。分为四种情况。

(1)司机没喝酒,酒驾检测正常,没超标,放行

(2)司机没喝酒,酒驾检测出了问题,(可能是设备坏了啊,天气不好啊,运气太差啊),超标,被抓了

(3)司机喝酒了,酒驾检测正常(运气爆棚,没查出来),没超标,放行

(4)司机喝酒了,酒驾被抓(活该)


现在做一个原假设:司机没喝酒

既然有原假设,那就也有备择假设:司机喝酒了

我们将原假设当做一个标准(司机没喝酒)去衡量一个事件,判断司机到底有没有喝酒。

--如果衡量的这个事件,发现这个事件发生的概率极低极低,那么我们可以拒绝原假设。

--如果衡量的这个事件,发现这个事件发生的概率不是那么低,是有可能的,那么我们将不拒绝原假设。

如图所示:

一些关于数据挖掘所需要的统计基础(5)_第1张图片

图中蓝色区域,表示没喝酒的情况,也就是我们一开始原假设的情况。

图中橙色区域,表示喝了酒的情况,也就是我们一开始备择假设的情况。

我们现在呢,以“没喝酒”这个标准去衡量司机到底有没有喝酒这个事件

如果检测出来的结果为上述第(2)种情况,即没喝酒还被判断为酒驾,这种极小概率发生的事件属于下图红色涂抹区域:

一些关于数据挖掘所需要的统计基础(5)_第2张图片

这种极端的情况发生的概率之和,被称为p-value。

再白话一点,假如酒精检测判断是否酒驾的标准为20mg/100ml。

一个司机没有喝酒,但是酒驾检查,发现他的酒精含量为21mg,出现这种事情的概率就属于“极低概率事件”

当然不仅有可能是21mg,还有可能是22mg,23mg等等,都有可能,只不过这个可能性,都非常非常的低。

所有这些低概率事件之和得到一个的总值,即为p-value。


谢谢大家~

你可能感兴趣的:(人工智能与数据挖掘)