数据分析入门需要了解的统计学知识【持续更新】

最近一直都在重温统计学的知识,是时候整理出来分享给大家了!

本篇博客会大致整理常见的统计学知识,多数内容只是简单概述,必要部分我会详讲。

基础知识点

  • 随机抽样:从总体中随机抽取元素到样本中。
  • 分层抽样:对总体分层,并在每层中做随机抽样。
  • 简单随机抽样:在不对总体分层的情况下,做随机抽样所得到的样本。
  • 偏差:系统性误差。
  • 样本偏差:样本对总体做出了错误的解释。
  • 样本统计量:对抽取自大规模总体中的样本做计算,所得到的一些度量值。
  • 数据分布:单个值在数据集中的频数分布。
  • 抽样分布:一个样本统计量在多个样本或重抽样中的频数分布。
  • 中心极限定理:当样本的规模增大时,抽样分布呈正态分布的趋势。
  • 标准误差:多个样本间样本统计量的变异性(标准偏差)。不要与标准偏差混淆,后者指的是个体数据值间的变异性。
  • 自助样本:从观测数据集中做有放回的抽取而得到的样本。
  • 重抽样:在观测数据中重复抽取样本的过程,其中包括自助过程和置换(混洗)过程。
  • 置信区间:是指由样本统计量所构造的总体参数的估计区间。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,即误差范围。
  • 置信水平:以百分比表示的置信区间。该区间是从同一总体中以同一方式构建的,可以包含
    我们感兴趣的统计量。
  • 区间端点:置信区间的两端。
  • 正态分布:一种连续型概率分布,其概率密度函数呈钟型,由均值μ和标准差σ确定。
  • 误差:数据点与预测值或均值间的差异。
  • 标准化:数据值减去均值,再除以标准偏差。
  • z 分数:单个数据点标准化的结果。
  • 标准正态分布:均值为 0、标准偏差为 1 的正态分布。
  • t分布:用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数嗷量足够多时),则应该用正态分布来估计总体均值。
  • 二项分布:表示二项试验中n次试验有x次成功的概率分布。
  • 泊松分布:表示在一段特定时间内一个事件发生x次的概率的概率分布。
  • 指数分布:在时间或距离上,从一个事件到下一个事件的频数分布。
  • 自由度:以星期为例,虽然一个星期有 7 天,但具体是星期几,其自由度为 6。一旦我们知道某一天并不是从星期一到星期六中的任意一天,那么它一定是星期天。自由度是归一化检验统计量计算的一部分。它使得归一化后的结果可以与参考分布(例如 t 分布、F 分布等)进行对比。

接下来是介绍一些统计实验和显著性检验方法。

1 A/B 测试

A/B 测试将实验分成两个组开展,进而确定两种处理、产品、过程等中较优的一个。在两组实验中,一般会有一组采用现有的标准处理,或者是不执行任何处理,称为对照组,而另一组称为实验组。实验中的一个典型假设是实验组要优于对照组。

主要术语:

  • 处理:实验对象所接触的东西,例如药品、价格、Web 标题等。
  • 实验组:执行特定处理的一组对象。
  • 对照组:执行标准处理或不执行处理的一组对象。
  • 随机化:随机地分配实验对象以进行处理的过程。
  • 实验对象:接受处理者,例如 Web 访问者、病人等。
  • 检验统计量:用于检验处理效果的度量。

A/B 测试的结果易于测量,因此被广泛地用于 Web 设计和营销中。下面列出了一些使用A/B 测试的例子。

  • 测试两种土壤处理,以确定哪种土壤更适合育种。
  • 测试两种疗法,以确定哪种疗法对于抑制癌症更有效。
  • 测试两种价格,以确定哪种价格的净利润更高。
  • 测试两个 Web 标题,以确定哪个标题会带来更多的点击量。
  • 测试两条网络广告,以确定哪条广告能转化为更多的购买行为。

A/B 测试有对象,对象会分配给两组处理中的一组。对象可能是一个人、一种植物种子或一位 Web 访问者。注意,对象需要接受处理。在理想情况下,对象是随机指定(即随机分配)给一组处理的。这样,两个实验组之间的任何差异,只可能是由下面两个因素所导致的。

  • 不同处理的效果。
  • 将对象分配到不同处理过程中的运气因素。一些对象的效果本来就很好,而随机分配可
    能会导致效果好的对象集中在处理 A 或处理 B 中。

在 A/B 测试中,我们也需要关注比较 A 组和 B 组时使用的检验统计量(即度量)。在数据科学中,最常用的度量可能是二元变量,例如点击或未点击,购买或不购买,作弊或未作弊,等等。

在比较中所使用的度量,可以是连续变量(例如购买数量、利润等),也可以是计数(例如住院天数、访问的页面数量)。一些统计软件(包括 R 在内)会默认生成输出,但不能因此认为所有的输出信息都是有用的,或是与结果相关的。

当度量是每次页面浏览的收益情况时,给出的结果可能会是收益平均值、标准偏差。如下:
Revenue/page-view with price A: mean = 3.87, SD = 51.10
Revenue/page-view with price B: mean = 4.11, SD = 62.98

上面给出的标准偏差表明数据中可能存在大量的负值,但我们知道,收入值是不可能为负的。这是由于数据集由少量较大的值(表示点击转化为购买)以及大量的零值(表示点击未转化为购买)组成。此类数据的变异性很难用单个数字总结。相对于标准偏差而言,更合理的度量是偏离均值的绝对偏差均值

以更换按钮颜色能否提高落地页中的按钮点击率为例,当我们统计出样本的点击率为15%时,如果这时候说采用点击率更高的按钮颜色后,这便是点估计,但显然它的误差是非常大的,所以我们在估计后是会给出总体参数的一个概率范围,即有多大的可能落在某个范围,比如说有90%的可能提升10%-20%,明显这种说法更准确科学,通常我们也称之为“置信区间”,这个区间也有一定的计算方法,大部分A/B 测试软件都会给用户提供这个参数作为参考。

1.1 为什么要有对照组?

控制变量法,懂?

如果没有对照组,就不能确保“其他条件均一样”,也不能确保所有差异的确是由处理(或偶然)导致的。除了处理,对照组与处理组具有相同的条件。如果我们只对比“基线”或先前的经验,那么除了处理,可能还有其他一些因素存在差异。如研究人员的心理暗示、心理偏好等。

1.2 为什么只有处理A和B,没有C、D……

是可以有的。。。

  • 将实验对象分配给两组或更多组,各组的条件完全相同,只是要接受的处理不同。
  • 在理想情况下,实验对象是随机分配给各组的。

2 假设检验

主要术语:

  • 零假设:完全归咎于偶然性的假设。
  • 备择假设:与零假设相反,即实验者希望证实的假设。
  • 单向检验:在假设检验中,只从一个方向上计数偶然性结果。
  • 双向检验:在假设检验中,从正反两个方向上计数偶然性结果。

假设检验也称显著性检验,假设检验的目的是确定一个观测到的效果是否是由随机性造成的。

在构建 A/B 测试时,我们通常会预先构想一个假设,例如假设价格 B 可能会带来更高的利润。那么我们为什么需要做出一个假设?为什么不能只是查看实验的结果,然后选择处理结果更好的那一组?

问题的答案在于,人们在思想上倾向于低估天然随机行为的范围。一个典型的例证就是难以预料极端事件,即黑天鹅事件。另一个例证是人们倾向于将随机事件曲解为具有某种显著性的模式。为此,人们提出了统计假设检验方法,目的是使研究人员免受随机性的愚弄。

也就是说,统计假设检验是对 A/B 测试(或任何随机实验)的进一步分析,意在评估随机性是否可以合理地解释 A 组和 B 组之间观测到的差异。

2.1 不同的检验方法

  • z检验:用于大样本平均值差异性检验的方法,用标准正态分布的理论来推断差异发生的概率。
  • t检验:用于样本含量较小,总体标准差未知的正态分布样本。
  • F检验:方差齐性检验,在两个样本t检验中要用到F检验,检验两个样本的方差是否有显著性差异。T检验用来检测数据的准确度,检测系统误差;F检验用来检测数据的精密度,检测偶然误差。
  • 卡方检验:主要用于检验两个或两个以上样本率或构成比之间的差别的显著性,可用于检验两类事物之间存在一定的关系。

2.2 第一类错误和第二类错误

  • 第一类错误是拒绝了实际正确的假设。
  • 第二类错误是接受了实际上不成立的假设。
  • 当置信水平高的时候,总体值均值落在置信区间的可能性就更大,这个时候不容易拒绝正确的假设,但更容易接受不成立的假设。
  • 实际过程中我们更害怕第一类错误,所以会尽可能设置高的置信水平。

3 统计显著性和p值

统计学家引入了统计显著性的概念,用于衡量一个实验(也可以是对已有数据的研究)所生成的结果是否会比随机情况下可能给出的结果更极端。如果生成的结果超出了随机变异的范围,则我们称它是统计显著的。

  • p 值:对于一个加入了零假设(完全归咎于偶然性的假设。)的偶然性模型,p 值指得到与观测结果一样不寻常或极端的结果的概率。
  • α 值:在实际结果的确是统计显著的情况下,α 值指偶然性结果必须超出的“不寻常性”概率的阈值。α 值的常见取值是 5% 和 1%。

但这里要注意的是,p值很好用,但不要作为决策的决定性因素。美国统计协会的声明指出了针对研究人员和期刊编辑的六项原则。

  1. p 值可以表示数据与指定统计模型间的不兼容程度。
  2. p 值并不能测量所研究的假设为真的概率,也不测量仅通过随机性生成数据的概率。
  3. 不应仅根据 p 值是否超过了给定的阈值,就得出一个科学结论,或做出一个商业或政策
    决定。
  4. 正确的推断需要具有全面的报告和完全的透明度。
  5. p 值(或统计显著性)并不测量效果的规模,也不测量结果的重要性。
  6. p 值本身并不能提供一种对模型或假设的很好量度。

结束语

仍在不断更新中。。。

了解更多内容,可以关注我的数据分析专栏。

CSDN@报告,今天也有好好学习

你可能感兴趣的:(数据分析,统计学习方法,统计学,ab测试,假设检验,数据分析)