假阳率(第一类错误)、假阴率,召回率、精确率

为什么统计检验中常关注假阳率(第一类错误)和假阴率(第二类错误),而机器学习中常关注准确率和精确率?

最根本的原因是统计检验的零假设和备择假设是“不平等“的两类。而机器学习的分类一般认为每一类都是”平等的“。对于”不平等“的两类,笼统地计算平均准确率逻辑上说不通。

1. 原假设的定义:原假设亦称待验假设、虚无假设、解消假设,一般记为H0。统计学的基本概念之一假设检验中,待检验的有关总体分布的一项命题的假设称为原假设。

2. 备择假设的定义:备择假设是统计学的基本概念之一,其包含关于总体分布的一切使原假设不成立的命题。备择假设亦称对立假设、备选假设。一般记为写为H1。

假设检验的基本思想是概率性质的反证法。根据所考察问题的要求提出原假设和备择假设,为了检验原假设是否正确,先假定原假设是正确的情况下,构造一个小概率事件,然后根据抽取的样本去检验这个小概率事件是否发生。

如果在一次试验中小概率事件竟然发生了,我们就怀疑原假设原假设的正确性,从而拒绝原假设。如果在一次试验中小概率事件没有发生,则没有理由怀疑原假设原假设的正确性,因此接受原假设。

假阳率(第一类错误)、假阴率,召回率、精确率_第1张图片

 

确立原假设与备择假设时应遵循以下两个原则:

1.原假设是在一次试验中有绝对优势出现的事件,而备择假设在一次试验中不易发生(或几乎不可能发生)的事件。因此,在进行单侧检验时,最好把原假设取为预想结果的反面,即把希望证明的命题放在备择假设上。

2. 将可能犯的严重错误看作第一类错误,因为犯第一类错误的概率可以通过a的大小来控制。犯第二类错误的概率是无法控制的。如医生对前来问诊的病人作诊断时,可能会犯“有病看成无病”或者“无病看成有病’的错误,相比较而言,“无病看成有病“的错误更严重,故应将“问诊人有病”作为原假设。而在某项疾病普查中,将“被检查人有病’作为原假设就不恰当了(如核酸筛查,H0为阴性)。

假设检验的最终目的是:去伪存真

那么它对应的两类错误就是弃真存伪。

接受或拒绝H0,都可能犯错误:

I类错误——弃真错误,发生的概率为α

II类错误——取伪错误,发生的概率为β

Ⅰ型错误又称第一类错误(type Ⅰ error):拒绝了实际上成立的,为“弃真”的错误,其概率通常用α表示。可取单尾也可取双尾,假设检验时研究者可以根据需要确定值大小,一般规定α=0.05或α=0.01,其意义为:假设检验中如果拒绝时,发生Ⅰ型错误的概率为5%或1%,即100次拒绝的结论中,平均有5次或1次是错误的。
所以又称假阳性错误。

第一类错误—弃真错误:

即H0本来正确,却拒绝了它,犯这类错误的概率不超过α,即P{拒绝H0/H0为真}≤α

可能产生的原因:

1.样本中极端数值

2.采用决策标准较宽松

第二类错误—取伪错误

即H0本不真,却接受了他,犯这类错误的概率记为β,即P{接受H0/H1为真}=β

可能产生原因:

1:实验设计不灵敏

2.样本数据变异性过大

3.处理效应本身比较小

两类错误的关系:

1:α与β是在两个前提下的概率,所以α+β不一定等于1

2:在其他条件不变的情况下,α与β不能同时增加或减少(因为对于同一个H0,一个拒绝一个接受)

当其他条件不变的情况下,α和β不可能同时增大或者减小。也就是说只改变影响β的因素或者只改变影响α的因素时,会影响到对方呈反方向变化。

那么什么时候可以减少两类错误呢?那就是把样本量放大,误差越小,两类错误都更小。这就是改变了其他条件。

统计学中的假设检验内核就包含这样的哲学,比如假设检验的基础 Neyman-Pearson引理:如果两类错误不能同时降低,那咱们就先控制一个压制在一个范围内,然后专心让另一个尽量低。人生大概也是这样,如果不能两全其美,那就一点集中,登峰造极。

首先需要弄清的是,我们到底“假设”了什么?我们的假设叫做“零假设”。比如有一种诊断方法,好比说叫NewC吧。现在要用在人身上,那么零假设是什么呢?就是说得先假设检测对象没病,然后给测一个NewC,一看,跟之前做研究搞出来的参考值差别不大,看来还不能说有病。假如说一看,和正常值偏差太多了,按照前期的研究,95%的正常人都不可能是偏差那么多,那也就是说我有95%的把握说,检测对象现在有了病。但假如检测对象恰恰就是那5%的骨骼清奇的练武奇才,我就犯了第一类错误。为什么这么说呢?因为我们原来的假设是你没病,而且你确实没病,但我却把原来的假设拒绝掉,认为你有病了,所以我这个检查误报了,而且确实是“假阳性”。而“去真”的“真”说的是什么呢?其实是“没病”是真,有病是假,也就是说“零假设”为真,我却把这个假设给拒绝了。

第一类错误又称为弃真错误,是将原本正确的H0拒绝了,接受了错误的H1。H0就相当于(-)(即大部分情况,没有确凿证据一般不会推翻的假设),H1(+),则从(-)到(+),就是假阳性的过程,将实际的阴性当成阳性结果了。第二类错误就是将不成立的H0(-)取了,则是实际上正确的H1(+)没取,从(+)到(-),取伪。

统计学假设检验的两类错误_Andy_shenzl的博客-CSDN博客_假设检验的两类错误

假设检验的两类错误 - 知乎

你可能感兴趣的:(算法)