置信度理解

作者:邹日佳
链接:https://www.zhihu.com/question/20183513/answer/15023786
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

谢邀,这个是在接触统计学的时候非常容易把自己思路弄乱的问题,很抱歉这么晚才来回答。
在之后的时间也能更好地理解置信度的概念,想先把统计学的基本原理讲清楚。
要理解置信度,就要理解好置信区间。
要理解置信区间,就要从统计学最基本最核心的思想去思考,那就是
用样本估计总体。
在统计学中,非常容易把概念模糊化,很容易把95%置信区间理解成为在这个区间内有95%的概率包含真值
但是这里有两个容易混淆的地方
1.真值只得是样本参数还是总体参数?
这个问题的答案是总体参数,我们取的数据是样本数据,点估计是样本参数的真实值,我们要估计总体参数。
2.95%的概率,变动的是谁?
在以后不常温习的情况下,这个问题容易造成困扰。这里95%的概率,变动的是置信区间。非常难以理解,用图来阐述一下:

置信度理解_第1张图片


错误理解:上图浅色的虚的竖直线代表样本参数真值,横的两端有端点的代表95%置信度的置信区间,100条竖直线里有95条左右落入这个区间内。
这是非常错误的理解,样本与总体的关系没有思考清楚。置信区间是估测总体参数的真值,这个值只有一个,且不会变动。

 

下图为正确理解:

置信度理解_第2张图片


样本数目不变的情况下,做一百次试验,有95个置信区间包含了总体真值。置信度为95%
其中大虚线表示总体参数真值,是我们所不知道的想要估计的值。正因为在100个置信区间里有95个置信区间包括了真实值,所以当我们只做了一次置信区间时,我们也认为这个区间是可信的,是包含了总体参数真实值的。

 

这样应该就能很好地理解了,遇到统计上的困惑时,多思考用样本估计总体这个核心思想,很多就能迎刃而解。

 

置信区间是频率学派的理论
简单来说,我们需要估计一个参数,手头有很多数据,构造好了某个公式,用这些数据算出来的一个置信区间。
要着重强调的一点是:求置信区间的公式只会与样本有关,与是无关的
也就是说,我们获得了一组样本,算出来置信区间;再换一组样本,算出来的置信区间是不一样的。
在这里,是不动的,动的是置信区间
置信度指的是:如果我们不厌其烦地抽样本算区间,得到了很多很多置信区间。那么在这些置信区间中,有95%的置信区间能覆盖到


至于说Bayes学派,另外有一个信仰区间。信仰区间只需要求一个,这个区间有95%的概率包含真值。

你可能感兴趣的:(机器学习)