机器学习笔记 - 什么是置信区间?

一、什么是置信区间?

        想象一下,您正试图找出有多少程序员在过去一年中至少休了两周的假期。您可以向每个程序员询问他或她的假期安排以获得答案,但这从时间和费用角度看几乎不太可能。

        为了节省时间和金钱,您可能会调查一小部分程序员。但是,如果您调查了所有程序员,您的发现可能与实际值不同。也就是说,这将是一个估计。每次重复调查时,您可能会得到略有不同的结果。

        通常,当研究人员提出这种类型的估计时,他们会在其周围放置一个置信区间 (Confidence Interval,CI)。CI 是一个值范围,高于和低于某个结果,其中实际值可能会下降。置信区间表示估计的准确度或精确度。

二、如何计算置信区间?

1、例1

        首先,我们随机测量了40个男性的身高,并得到一个平均身高175cm,然后我们计算了标准差等于20cm。

        然后,我们决定使用95%的置信区间,然后查表得到置信区间的“Z”值,对于 95%,Z 值为1.960

机器学习笔记 - 什么是置信区间?_第1张图片

        然后可得

        也就是说175cm±6.20cm,即168.8cm到181.2cm。±之后的值称为误差范围。意义就是说男性总体样本的平均身高有95%的几率落在168.8cm - 181.2cm范围内。

        这个Z值是如何得到的,这一切都基于标准正态分布,请看下面这篇文章。

机器学习笔记 - 什么是标准正态分布表?_bashendixie5的博客-CSDN博客自然科学和社会科学中的各类变量均呈正态分布或近似正态分布。身高、出生体重、阅读能力、工作满意度或 SAT 分数只是这些变量的几个例子。因为正态分布的变量非常普遍,所以许多统计检验都是为正态分布的总体设计的。了解正态分布的属性意味着您可以使用推论统计来比较不同的组并使用样本对总体进行估计。正态分布也称为高斯分布或钟形曲线。正态分布具有以下关键特征:均值、中位数和众数完全相同。该分布关于均值对称——一半的值低于均值,一半高于均值。均值和标准差两个值可以描述分布。https://blog.csdn.net/bashendixie5/article/details/124118954        95% 的置信水平最常用于研究;这是一个普遍接受的标准。但是,研究人员可以计算任何显着性水平的置信区间,例如 90% 或 99%。显着性水平只是表明他们愿意达到的精确程度。

2、例2 

        随机抽取 50 名成年女性样本,测量她们的红细胞计数。样本平均值为 4.63,RBC 计数的标准差为 0.54。为成年女性的真实平均 RBC 计数构建一个 95% 的置信区间估计。

        还是采用95%的置信区间。

        因此,我们有 95% 的信心认为成年女性的真实平均 RBC 计数在 4.480 和 4.780 之间。 

3、例3

        在概率论和统计学中,t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

        随机抽取了 10 名 UFC 选手并测量了他们的体重。发现平均重量为240公斤,样本标准偏差为 25公斤。然后我们使用95%置信区间估计。

        计算自由度 df = 10 - 1 = 9

        显著水平  α = (1 – .95) / 2 = 0.025

        查t分布表,得到t = 2.262

机器学习笔记 - 什么是置信区间?_第2张图片

         然后带入公式

         因此,我们有 95% 的把握相信 UFC 格斗选手的真实平均体重在 222.117 和 257.883 之间

三、时间序列分析中应用

        利用置信区间的一种特殊方法是时间序列分析,其中样本数据集表示特定时间范围内的一系列观察结果。

        这种研究的一个常见主题是一个变量的变化是否会影响另一个变量。

        更具体地说,让我们考虑以下经常引起经济学家兴趣的一般性问题:“利率的变化如何影响价格水平?”

        有几种方法可以解决这个问题,其中涉及复杂的理论和实证分析,这远远超出了本文的范围。此外,有多种技术可以估计和应用置信区间,但通过这个例子,我们仍然可以在更复杂的问题中表示置信区间的功能。

机器学习笔记 - 什么是置信区间?_第3张图片 横轴表示利率变化一单位后的月数,纵轴表示价格水平的反应。

        上图是计量经济学模型的估计输出的直观表示,即所谓的脉冲响应函数,它显示了一个变量在另一个变量发生变化时的反应。蓝线下方和上方的红色虚线表示 95% 的置信区间,或另一个名称,置信区间,它定义了最可能结果的区域。更具体地说,它表明在利率发生变化后,仅在第二个月,价格水平才会出现显着反应。

四、置信区间的类型

        均值的置信区间

        方差的置信区间

        两个方差之比的置信区间

        比例的置信区间

        比例差异的置信区间

五、参考网址

Confidence Interval - GeeksforGeeksicon-default.png?t=M276https://www.geeksforgeeks.org/confidence-interval/

你可能感兴趣的:(机器学习,置信区间,置信水平,平均值,标准偏差,CI)