面向面试的机器学习知识点(2)——数理统计

本期省流版:成为数据分析师,这些数理统计知识必不可少!

  1. 大样本,小样本的概念

  2. 协方差、相关系数、独立性之间的区别与联系

  3. 显著性水平 / 置信度 / 置信区间

  4. 假设检验

  5. 三种经典分布,和对应的三种检验方式

  6. 方差分析

  7. 中心极限定理,大数定理

内容很多,创作不易,请多多支持~ 


大样本 / 小样本

  1. 大样本:样本量趋于无穷

  2. 小样本:样本量有限

协方差 / 相关系数 / 独立性

协方差

  1. 定义:两个变量总体的误差,反映两个变量之间的变化趋势(eg. 一个上升,另一个也上升,则协方差为正值)

  2. 特点:协方差的取值范围是负无穷到正无穷,无法直观地判断两个变量之间的相关性强弱.

相关系数

  1. 定义:相关系数是协方差的标准化版本,它表示的是两个变量之间的线性关系强度和方向。

  2. 取值范围:[-1, 1],接近1表示变量之间存在强正相关,接近-1表示变量之间存在强负相关,接近0表示变量之间不存在线性关系。由于样本标准差为正,相关系数和协方差同号。

独立

  1. 定义:联合概率分布 = 各自的边缘概率分布的乘积

  2. 辨析:协方差 = 0 ——> 不相关、相关系数 = 0,不能推出彼此独立

  3. 协方差是相关系数的分子,相关系数反映变量线性相关性

  4. 线性不相关的变量之间可能存在非线性的影响,因此并不一定是独立的。只有当两个变量既不相关又相互独立时,才能确保它们之间没有任何关系。

显著性水平 / 置信度 / 置信区间

定义:第一类错误的概率也称为显著性水平α,置信度 = 1 - α。置信区间是参数范围(分位数)

置信区间大小的影响因素

  1. 样本大小:样本量越大,置信区间越窄。

  2. 置信水平:置信水平越高,置信区间越宽。

  3. 样本标准差:标准差越大,置信区间越宽。

假设检验是什么?

假设检验:

  1. 定义:检测实验组与对照组之间是否存在差异以及差异是否显著的办法。在检验之前先确定假设,一般把要检验的假设设为原假设H0,对应的为备择假设H1。

  2. 过程:先对总体参数提出假设值,再利用样本信息判断假设是否成立

  3. 方式:单侧检验,双侧检验

  4. 单侧检验比双侧检验更严格,相同的统计量(如Z),会更靠近单侧拒绝域的分位数,更容易被拒绝

p值

  1. 定义:实验组和对照组的差别是由随机性导致的可能性大小。p值越小,越证明差异非随机,是差异显著的。

  2. 通常把要拒绝的假设设置为原假设,p value < α则拒绝原假设。p value此时即表示犯第一类错误的概率(小于α)。

第一类错误:

  1. 定义:原假设为真,而检验的结论却劝你放弃原假设。

  2. 显著性水平和置信度:第一类错误的概率也称为显著性水平α,置信度 = 1 - α(原假设为真,劝你接受原假设,称为置信度 = 1 - α)

  3. 犯第一类错误的原因:错误地拒绝了一个真实为真的假设,通常是由于设定了过高的显著性水平α,导致错误地拒绝了原假设。

第二类错误:

  1. 定义:原假设不为真,而检验的结论却劝你接受原假设。

  2. 统计功效:第二类错误的概率被定义为β,统计功效(power,也被称为检验效力),被定义为1-β,表示的是“正确拒绝假设的概率”(原假设为假,也发现了原假设为假,称为统计功效=1-α)

  3. **犯第二类错误的原因:**过低的显著性水平,过少的样本量导致忽略了本来存在的效应(对应本来很小的p-value)

减少第一类和第二类错误的方法

  1. 减少第一类:提高置信水平(降低显著性水平α)

  2. 减少第二类:提高统计功效 1 - β

  3. 具体:

三种经典分布

t分布:Python:scipy.stats.t.pdf(x)

卡方分布:Python:scipy.stats.chi2.pdf(x)

Z分布:Python:scipy.stats.norm(x, 0, 1)

单侧 or 双侧检验?

实际业务中永远是双侧检验

原因:

  1. **双尾检验可以让数据自身在决策中发挥更大的作用。**我们在实践中使用AB测试,就是希望能够通过数据来驱动;决策。我们要尽量减少在使用数据前产生的任何主观想法来干扰数据发挥作用。所以双尾检验这种不需要我们明确谁大谁小的检验,更能发挥数据的作用

  2. **双尾检验可以帮助我们全面考虑变化带来的正、负面结果。**在实践中,我们期望改变可以使指标朝着好的方向变化,但是万一指标实际的变化与期望的正好相反呢?这就可以体现双尾检验的优势了。双尾检验可以同时照顾到正面和负面的结果,更接近多变的现实情况。但是单尾检验只会适用于其中一种,而且通常是我们期望的正面效果

t检验(实际用的更多,因厚尾,同样的值不容易第一类错误)

基本概念

目的:用于检验两个平均数的差异是否显著

适用:样本含量较小(例如n < 30),总体标准差σ未知的t分布

条件:先进行方差齐性检验

  1. 定义:验证两组样本的方差是否具有统计学上的显著差异(需要没有显著性差异,即方差齐性)

  2. 原因:

  3. t 检验的假设: t 检验基于两组样本的均值之间的差异进行推断。然而,如果两组样本的方差不相等,那么样本的均值差异可能会受到方差不齐的影响,从而导致 t 统计量的准确性受到影响。

  4. t 分布的假设: 在 t 检验中,t 统计量的抽样分布假设两组样本的方差相等(方差齐性)。如果这个假设不成立,那么 t 统计量的抽样分布可能会受到影响,进而影响 t 检验的准确性和可靠性。

单样本t检验:

  1. 定义:比较一个样本的均值与已知或假设的总体均值是否有显著差异

  2. 公式:其中n为样本量,s为样本标准差,自由度=n-1,计算得到t值后查表,小于表中对应t值则说明差异不显著(样本均值和假设的均值μ0之间无显著差异)

双样本 t 检验:

  1. 目的:比较两组独立样本的平均值是否存在显著差异。

  2. 特点:两组样本之间是相互独立的,来自于不同的群体或条件。

  3. 常见的例子包括比较两组学生在同一门课程的成绩、男性和女性的身高等。

配对样本t检验:

  1. 目的:比较同一组样本在不同条件下的平均值是否存在显著差异。

  2. 特点:相关的,非独立的

  3. 常见的例子包括比较同一组学生在两次考试中的成绩、同一组患者在治疗前后的体重变化等。

Z检验

  1. 目的:判断一个样本的均值是否显著地不同于已知总体的均值

  2. 适用:大样本,总体标准差已知,正态分布

  3. 分布:Z分布(标准正态分布)

卡方检验

  1. 何时使用:卡方检验适用于分类数据,即非连续的、分类型的数据。在AB测试的上下文中,次日留存通常被视为二元结果(例如用户留存或流失)

  2. 工作原理:卡方检验通过比较观察值与期望值之间的差异来确定两组之间是否有显著差异。对于次日留存,会比较每组中实际留存与流失的用户数与在没有效果的情况下预期的用户数。

  3. 适用场景:当AB测试的目标是比较两个不同策略(如不同的用户界面或功能)对用户次日留存的影响时,卡方检验可以用来确定观察到的留存率差异是否超出了随机变化的范围。(将留存与否视作分类问题时适用)

z检验、t检验、卡方检验区别:

Z检验

T检验 ※

卡方检验

分布

Z分布

T分布

卡方分布

样本容量

大样本
(样本量无限)

小样本
(是表示样本可数,这个数本身可以很大)

无要求

总体标准差

要求已知

可以未知

无要求

置信区间宽度

薄尾,置信区间窄

厚尾,置信区间宽

使用场景

连续变量,样本量较大

二元变量

实际业务场景

双侧t检验使用较多

留存率问题

是否需要方差齐性

×

×

(该部分主要内容来自GPT生成,有需要的小伙伴可以查阅:GPT使用教程)

中心极限定理

定义:

在一定条件下,独立随机变量的均值的分布会趋向于正态分布,即使这些随机变量本身并不服从正态分布。

特点:

  1. 当样本容量足够大时(通常为 30 或更多),样本均值的分布将近似服从正态分布,无论原始总体的分布形态是什么。

  2. 样本容量越大,样本均值的正态近似度越好。

  3. 即使总体分布明显非正态,样本均值的分布也会趋于正态。

作用

  1. 在没办法得到总体数据的情况下,可以用样本来估计总体

  2. 根据总体的平均值和标准差,判断样本是否属于总体

在AB实验中的应用

  1. 样本均值分布近似正态分布: 根据中心极限定理,当样本容量足够大时,样本均值的分布会近似于正态分布,即使原始数据并不服从正态分布。因此,在AB实验中,可以利用正态分布的性质进行统计推断,如计算置信区间、假设检验等。

  2. 对比两组差异的显著性: 在AB实验中,我们常常关注两组之间某个指标的差异,如点击率、转化率等。通过计算两组的均值差异,并利用中心极限定理,可以进行假设检验来判断这种差异是否显著。

  3. 样本大小的确定: 中心极限定理也可以用于帮助确定所需的样本大小。根据中心极限定理,随着样本容量的增加,样本均值的分布将越来越接近正态分布,因此可以通过计算样本大小来确保所得到的样本均值具有较好的正态性。

大数定理

  1. 定义:在大量样本条件下,实验结果的均值接近期望值(总体均值)

方差分析(ANOVA)

定义:

用于比较两个或多个组的均值是否存在显著差异

目的:

  1. 确定一个或多个因素对观测值的影响是否显著。

  2. 比较两个或多个组(或处理)的均值是否存在显著差异。

原理:分析观测值的变异性来确定不同组之间的均值差异是否超过了随机误差的范围

  1. 它将观测值的总变异分解为组内变异和组间变异两部分。

  2. 如果组间变异显著大于组内变异,则说明不同组之间的均值存在显著差异。

分类:

  1. 单因素方差分析:比较一个因素(或处理)的不同水平之间的均值差异。

  2. 多因素方差分析:比较两个或多个因素(或处理)的交互作用和主效应对观测值的影响。


总结

今天的内容主要写了机器学习和统计相关的知识,在数分、算法等环节都会应用到。下一篇我会介绍常见的几种回归模型。如果你觉得文章对你有帮助,还请点赞收藏支持呀~

文中部分内容我交给了GPT4.0生成和排版,有些地方不得不说比我写的还好。作为一项给力的生产工具,真心推荐各位同学好好使用,助理自己的学习、科研和工作。目前还不知道怎么升级的同学可以参考下面这篇博客:GPT使用教程

你可能感兴趣的:(机器学习,人工智能)